基于行非零值过滤pandas DataFrame

vdgimpew 于 2023-05-05 发布在其他

关注(0)|答案(2)|浏览(124)

我有一个pandas df如下：

date X1 X2 X3  Y  user
1/1   0  3 34  5   a
2/1   0  7 65  5   a
3/1   0 13  0  5   a
4/1  25  4 65  0   a
5/1  35  0  0  5   a
6/1   4  6  9  0   a
7/1   0  0  0  5   a
1/1   0  0 34  5   b
2/1   0  7 65  5   b
3/1   0 13  0  5   b
4/1   0  4 65  5   b
5/1  35  0  0  5   b
6/1   4  6  9  0   b
7/1   0  0  0  0   b

如何使用groupby()，仅在所有Xs开始出现非零值后才使用select rows per user。在这种情况下，对于用户a，仅选择dates4/1、5/1、6/1、7/1的行，对于用户b，仅选择dates6/1、7/1的行。谢谢大家。

pandas

来源：https://stackoverflow.com/questions/76175490/filtering-pandas-dataframe-based-on-row-non-zero-values

2条答案

按热度按时间

eqqqjvef1#

你可以这样做

df.groupby('user') \
  .apply(lambda s: s[s.filter(like='X').ne(0).all(1).cumsum().ge(1)]))

date  X1  X2  X3  Y user
user                            
a    3   4/1  25   4  65  0    a
     4   5/1  35   0   0  5    a
     5   6/1   4   6   9  0    a
     6   7/1   0   0   0  5    a
b    12  6/1   4   6   9  0    b
     13  7/1   0   0   0  0    b

赞(0）回复(0）举报 2023-05-05

bqjvbblv2#

另一种可能的解决方案是使用cummax和 boolean indexing：

#are all the `X`s not equal to 0 ?
m = df.filter(like="X").ne(0).all(axis=1)

out = df.loc[m.groupby(df["user"]).cummax()]

输出：

print(out)

   date  X1  X2  X3  Y user
3   4/1  25   4  65  0    a
4   5/1  35   0   0  5    a
5   6/1   4   6   9  0    a
6   7/1   0   0   0  5    a
12  6/1   4   6   9  0    b
13  7/1   0   0   0  0    b

赞(0）回复(0）举报 2023-05-05

我来回答

基于行非零值过滤pandas DataFrame

2条答案

相关问题

热门标签

最新问答