pandas 如何消除分类问题中标签冲突?[重复]

ih99xse1  于 2023-04-10  发布在  其他
关注(0)|答案(1)|浏览(86)

此问题已在此处有答案

Drop all duplicate rows across multiple columns in Python Pandas(8个回答)
10天前关闭。
我有不同标签的相同样本,这是由于错误标记的数据造成的,如果数据被错误标记,它会混淆模型,并导致模型的性能降低。
这是一个二元分类问题。如果我的输入表是如下所示

我想要下表作为我的清理数据

我绑定了这个数据清理库来检查冲突,但无法清理它:https://docs.deepchecks.com/stable/checks_gallery/tabular/data_integrity/plot_conflicting_labels.html#
我的自定义函数需要很多时间来运行,当我有2M记录要清理时,什么是最有效的运行方法?

41ik7eoe

41ik7eoe1#

您可以将drop_duplicates与子集一起使用:

out = df.drop_duplicates(['A', 'B', 'C'], ignore_index=True)
print(out)

# Output
   A  B  C  Target
0  1  2  3       0
1  2  8  9       1
2  9  6  5       1
3  3  7  0       0

相关问题