此问题已在此处有答案:
Drop all duplicate rows across multiple columns in Python Pandas(8个回答)
10天前关闭。
我有不同标签的相同样本,这是由于错误标记的数据造成的,如果数据被错误标记,它会混淆模型,并导致模型的性能降低。
这是一个二元分类问题。如果我的输入表是如下所示
我想要下表作为我的清理数据
我绑定了这个数据清理库来检查冲突,但无法清理它:https://docs.deepchecks.com/stable/checks_gallery/tabular/data_integrity/plot_conflicting_labels.html#
我的自定义函数需要很多时间来运行,当我有2M记录要清理时,什么是最有效的运行方法?
1条答案
按热度按时间41ik7eoe1#
您可以将
drop_duplicates
与子集一起使用: