pandas 有效地过滤掉重复列的最后一行

edqdpe6u 于 2023-03-11 发布在其他

关注(0)|答案(6)|浏览(176)

我需要过滤掉col2 = 3所在的最后一行，但保留 Dataframe 的其余部分。
我可以这样做，同时保持相对于索引的顺序：

import pandas

d = {
     'col1': [0, 1, 2, 3, 3, 3, 3, 4, 5, 6],
     'col2': [0, 11, 21, 31, 32, 33, 34, 41, 51, 61]
    }

df = pandas.DataFrame(d)
df2 = df[df['col1'] != 3]
df3 = df[df['col1'] == 3].iloc[:-1]

pandas.concat([df2,df3]).sort_index()

col1 col2
0   0    0
1   1    11
2   2    21
3   3    31
4   3    32
5   3    33
7   4    41
8   5    51
9   6    61

但是对于更大的 Dataframe ，执行此操作的开销会逐渐增加。
有没有更有效的方法？

更新

根据到目前为止提供的答案，以下是结果：
一个二个一个一个

pandas

来源：https://stackoverflow.com/questions/75697107/efficiently-filtering-out-the-last-row-of-a-duplicate-column

6条答案

按热度按时间

irtuqstp1#

也可能：

out = df.loc[ df["col1"].ne(3) | df["col1"].duplicated(keep="last") ]

输出：

col1  col2
0     0     0
1     1    11
2     2    21
3     3    31
4     3    32
5     3    33
7     4    41
8     5    51
9     6    61

赞(0）回复(0）举报 2023-03-11

w41d8nur2#

您可以用途：

>>> df.drop(df['col1'].where(df['col1'].eq(3)).last_valid_index())
   col1  col2
0     0     0
1     1    11
2     2    21
3     3    31
4     3    32
5     3    33
7     4    41
8     5    51
9     6    61

赞(0）回复(0）举报 2023-03-11

iq0todco3#

您可以用途：

# get the last index of 3 in col1
idx = df.loc[::-1, 'col1'].eq(3).idxmax()

# if there was no 3 in col1, this would give a false positive
# idxmax would return the last non-3 instead
# ensure that we drop the correct row
if df.loc[idx, 'col1'] == 3:
    df = df.drop(idx)

注意：如果您已经知道3在col 1中，那么简单的df = df.drop(idx)就足够了。*

输出：

col1  col2
0     0     0
1     1    11
2     2    21
3     3    31
4     3    32
5     3    33
7     4    41
8     5    51
9     6    61

计时比较

Dataframe 大小从8到33 M行。所有答案的时间都是相似的，除了Chrysophylaxs的时间更快（rhug 123和Corralian/LaurentB的时间分别对于大/小 Dataframe 更慢）。

赞(0）回复(0）举报 2023-03-11

0ve6wy6x4#

下面是另一个解决方案：

df.loc[df['col1'].iloc[::-1].ne(3).rank(method = 'first').ne(1)]

输出：

col1  col2
0     0     0
1     1    11
2     2    21
3     3    31
4     3    32
5     3    33
7     4    41
8     5    51
9     6    61

赞(0）回复(0）举报 2023-03-11

r6vfmomb5#

df.drop(index=df[df['col1'].eq(3)].index[-1:], axis=0)

col1  col2
0     0     0
1     1    11
2     2    21
3     3    31
4     3    32
5     3    33
7     4    41
8     5    51
9     6    61

赞(0）回复(0）举报 2023-03-11

qqrboqgw6#

编辑：
筛选最后一个3的索引并将其删除：

df1 = df.drop(df.index[df['col1'].eq(3)][-1])

如果可能，始终存在值3，您可以找到索引并删除它：

df1 = df.drop((df['col1'].iloc[::-1] == 3).idxmax())

在numpy里也是这样：

df1 = df.drop(np.argwhere(df['col1'].to_numpy() == 3)[-1])

计时非常相似：

#Last value of 1M is 3
np.random.seed(100)
df = pd.DataFrame({'col1': np.random.randint(100, size=1000000)})
df.loc[len(df), 'col1'] = 3
#print (df)

In [261]: %timeit df.loc[ df["col1"].ne(3) | df["col1"].duplicated(keep="last") ]
43.8 ms ± 479 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [262]: %timeit df.drop(df[df['col1'].eq(3)].index[-1])
44.4 ms ± 120 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [263]: %timeit df.drop(df[df['col1'].eq(3)].index[-1:])
44.8 ms ± 490 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [264]: %timeit df.drop((df['col1'].iloc[::-1] == 3).idxmax())
44.6 ms ± 1.62 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [265]: %timeit df.drop(np.argwhere(df['col1'].to_numpy() == 3)[-1])
43.3 ms ± 422 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [266]: %timeit df.drop(df['col1'].where(df['col1'].eq(3)).last_valid_index())
64.3 ms ± 11.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [267]: %timeit df.loc[df['col1'].iloc[::-1].ne(3).rank(method = 'first').ne(1)]
168 ms ± 2.59 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

赞(0）回复(0）举报 2023-03-11

我来回答

pandas 有效地过滤掉重复列的最后一行

6条答案

计时比较

相关问题

热门标签

最新问答