pandas 从 Dataframe 中删除反向重复项

dzjeubhm  于 2022-12-09  发布在  其他
关注(0)|答案(6)|浏览(172)

我有一个具有两列AB的 Dataframe 。例如,我认为(0,50)(50,0)是重复的。在Pandas中,什么是从 Dataframe 中删除这些重复的有效方法?

import pandas as pd

# Initial data frame.
data = pd.DataFrame({'A': [0, 10, 11, 21, 22, 35, 5, 50], 
                     'B': [50, 22, 35, 5, 10, 11, 21, 0]})
data
    A   B
0   0  50
1  10  22
2  11  35
3  21   5
4  22  10
5  35  11
6   5  21
7  50   0

# Desired output with "duplicates" removed. 
data2 = pd.DataFrame({'A': [0, 5, 10, 11], 
                      'B': [50, 21, 22, 35]})
data2
    A   B
0   0  50
1   5  21
2  10  22
3  11  35

理想情况下,输出将按列A的值排序。

dxpyg8gm

dxpyg8gm1#

下面是一个稍显丑陋但速度更快的解决方案:

In [44]: pd.DataFrame(np.sort(data.values, axis=1), columns=data.columns).drop_duplicates()
Out[44]:
    A   B
0   0  50
1  10  22
2  11  35
3   5  21

时序:用于8K行DF

In [50]: big = pd.concat([data] * 10**3, ignore_index=True)

In [51]: big.shape
Out[51]: (8000, 2)

In [52]: %timeit big.apply(lambda r: sorted(r), axis = 1).drop_duplicates()
1 loop, best of 3: 3.04 s per loop

In [53]: %timeit pd.DataFrame(np.sort(big.values, axis=1), columns=big.columns).drop_duplicates()
100 loops, best of 3: 3.96 ms per loop

In [59]: %timeit big.apply(np.sort, axis = 1).drop_duplicates()
1 loop, best of 3: 2.69 s per loop
mklgxw1f

mklgxw1f2#

您可以在删除重复项之前对数据框的每一行进行排序:

data.apply(lambda r: sorted(r), axis = 1).drop_duplicates()

#   A    B
#0  0   50
#1  10  22
#2  11  35
#3  5   21

如果希望结果按列A排序:

data.apply(lambda r: sorted(r), axis = 1).drop_duplicates().sort_values('A')

#   A    B
#0  0   50
#3  5   21
#1  10  22
#2  11  35
5sxhfpxr

5sxhfpxr3#

现在这个解决方案起作用了

data.set_index(['A','B']).stack().drop_duplicates().unstack().reset_index()

可以根据需要添加更多的列。

data.set_index(['A','B', 'C']).stack().drop_duplicates().unstack().reset_index()
gywdnpxw

gywdnpxw4#

drop_duplicates()函数的一个示例

mu0hgdu0

mu0hgdu05#

这里是一个有点冗长的解决方案,但可能对初学者有帮助-
创建新列,以便对列A和列B中的值进行跨行排序-

data['C'] = np.where(data['A']<data['B'] , data['A'], data['B'])
data['D'] = np.where(data['A']>data['B'] , data['A'], data['B'])

删除重复项,按列“C”排序,并重命名列

data2 = data[['C', 'D']].drop_duplicates().sort_values('C')
data2.columns = ['A', 'B']   
data2

PS -“np.where”函数的工作原理与Excel中的If公式类似(逻辑条件,值为TRUE,值为FALSE)

dwbf0jvd

dwbf0jvd6#

另一个经典的选择是将这些值聚合为一个冻结集合,并使用布尔索引。

out = data[~data[['A', 'B']].agg(frozenset, axis=1).duplicated()]

输出量:

A   B
0   0  50
1  10  22
2  11  35
3  21   5

它的效率也相当高,尽管不如经过优化的np.sort方法:

%timeit big.apply(lambda r: sorted(r), axis = 1).drop_duplicates()
27.2 ms ± 914 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

%timeit pd.DataFrame(np.sort(big.values, axis=1), columns=big.columns).drop_duplicates()
733 µs ± 20.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit big.apply(np.sort, axis = 1).drop_duplicates()
12 s ± 403 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit big[~big[['A', 'B']].agg(frozenset, axis=1).duplicated()]
25 ms ± 657 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

相关问题