pandas GroupBy后的子样本

twh00eeo 于 2023-05-12 发布在其他

关注(0)|答案(1)|浏览(83)

我有一个dataframe，看起来像这样：

现在我想按他们的id分组并获取他们的tweet：

df.groupby(["id"]).count()

这让我想到

然而，我想对数据进行二次采样，这样只有<n tweet的用户才能保存在dataframe中，如果你有超过n的样本（tweet），你的tweet应该被随机二次采样。我该怎么做？我已经尝试了以下方法，但它们只返回整行的n样本…

n=3
print(data.groupby(["user_id"]).apply(lambda x: x.sample(min(n,len(x)), replace=False)).reset_index(drop=True))
print(data.groupby('user_id').sample(n, random_state=1))

pandas

来源：https://stackoverflow.com/questions/76222106/subsample-after-groupby