如何在pandas中找到重复项?

bqujaahr  于 2023-04-28  发布在  其他
关注(0)|答案(2)|浏览(173)

我有一个大约52000行的数据框,其中有一些重复的数据,当我使用

df_drop_duplicates()

我失去了大约1000行,但我不想删除这些行,我想知道哪些是重复的行

bttbmeg0

bttbmeg01#

你可以使用duplicated来实现:

df[df.duplicated()]

您可以指定keep参数为您想要的,从文档:

keep:'first','last',False},默认为'first'

  • first:将重复项标记为True,第一次出现的除外。
  • last:将重复项标记为True,但最后一个除外。
  • False:将所有重复项标记为True
8ehkhllq

8ehkhllq2#

要识别pandas列中的重复项而不删除重复项,请尝试:
设'Column_A' =具有重复条目的列'Column_B' =标记列A中的重复项的真/假列。

df['Column_B'] = df.duplicated(subset='Column_A', keep='first')

更改参数以根据您的需要进行微调。

相关问题