我有一个大约52000行的数据框,其中有一些重复的数据,当我使用
df_drop_duplicates()
我失去了大约1000行,但我不想删除这些行,我想知道哪些是重复的行
bttbmeg01#
你可以使用duplicated来实现:
duplicated
df[df.duplicated()]
您可以指定keep参数为您想要的,从文档:
keep
keep:'first','last',False},默认为'first'
first
True
last
False
8ehkhllq2#
要识别pandas列中的重复项而不删除重复项,请尝试:设'Column_A' =具有重复条目的列'Column_B' =标记列A中的重复项的真/假列。
df['Column_B'] = df.duplicated(subset='Column_A', keep='first')
更改参数以根据您的需要进行微调。
2条答案
按热度按时间bttbmeg01#
你可以使用
duplicated
来实现:您可以指定
keep
参数为您想要的,从文档:keep:'first','last',False},默认为'first'
first
:将重复项标记为True
,第一次出现的除外。last
:将重复项标记为True
,但最后一个除外。False
:将所有重复项标记为True
。8ehkhllq2#
要识别pandas列中的重复项而不删除重复项,请尝试:
设'Column_A' =具有重复条目的列'Column_B' =标记列A中的重复项的真/假列。
更改参数以根据您的需要进行微调。