我有一个提取的论坛帖子的数据框架,其中每个线程的开头帖子由thread_opening列中的数字1表示。post_number列计算thread_name列中每个唯一字符串的注解数(即每个线程)。它看起来像这样:
| 用户名|线程名|后文本|岗位编号|螺纹开口|
| --------------|--------------|--------------|--------------|--------------|
| BoxCutter|我们做的时候没关系。|...|1|1|
| 文档_33|我们做的时候没关系。|...|二|0|
| 听令|我们做的时候没关系。|...|三|0|
| 耶兹|科学类|...|1|1|
| 美因兰德|科学类|...|二|0|
| 400z|科学类|...|三|0|
| 法纳姆|科学类|...|四|0|
我正在尝试创建一个新的专栏,让我们称之为'thread_comments_count',它统计每个线程中的帖子数量。本质上,对于thread_opening = 1的每一行,我希望计算post_number。而在thread_opening = 0的情况下,thread_comments_count值将= 0。
2条答案
按热度按时间5lhxktic1#
如果
thread_opening
已经存在,可以使用groupby.cumcount
:如果你想要总数,只有当
thread_opening
是1时:输出:
nkhmeac62#
将
numpy.where
与Series.value_counts
和Series.map
一起使用: