我有一个Pandas数据框:
我以前有重复测试_否;所以我删除了重复项
df['test_no'] = df['test_no'].apply(lambda x: ','.join(set(x.split(','))))
但正如你所看到的,复制品仍然存在我想是多余的空间,我想清理一下
第一部分:
my_id test_no
0 10000000000055910 461511, 461511
1 10000000000064510 528422
2 10000000000064222 528422,528422 , 528421
3 10000000000161538 433091.0, 433091.0
4 10000000000231708 nan,nan
预期输出
my_id test_no
0 10000000000055910 461511
1 10000000000064510 528422
2 10000000000064222 528422, 528421
3 10000000000161538 433091.0
4 10000000000231708 nan
第二部分:
我还想检查是否有任何"my_id"共享任何test_no;例如:
my_id matched_myid
10000000000064222 10000000000064510
1条答案
按热度按时间6l7fqoea1#
您可以使用正则表达式拆分:
如果要保留原始顺序,请使用
dict.fromkeys
代替set
。如果重复项是连续的,则还可以用途: