我有一个单词列表,我想计算一下,这些单词中的每一个出现在带有文本数据或dfm的 Dataframe 中的频率。到目前为止我所做的:
我的清单:
words <- dictionary(list(words = c("House", "Mountain", "Blue", "Night")))
我的dataframe(也有一个dfm从标题和文本):
| 身份证|标题|日期|正文|
| --------------|--------------|--------------|--------------|
| 1|布拉布拉|2023年7月22日|blablablabla蓝色blablabla|
| 2|布拉布拉|23.06.2023|蓝色blabla蓝色blabla蓝色|
输出应为:
| 身份证|标题|日期|正文|字|计数|
| --------------|--------------|--------------|--------------|--------------|--------------|
| 1|布拉布拉|2023年7月22日|blablablabla蓝色blablabla|蓝色|1|
| 2|布拉布拉|23.06.2023|蓝色blabla蓝色blabla蓝色|蓝色|3|
2条答案
按热度按时间5jdjgkvh1#
我对输入数据做了一点编辑,以显示
words
向量中的多个单词存在于text
列中的情况。我用一个循环来处理它,并将它们分成多行。然而,我们也可以将这些汇总到一个列表中,并将
count
添加到一起:summarise(word = list(word), count = sum(count), .by = c(title, date, text))
创建于2023-05-15带有reprex v2.0.2
wdebmtf22#
如果你只是想提取
words
并汇总计数,那就可以了:编辑:
如果您不想对
words
进行概括性计数,而是想按类型计数,那么这是一项完全不同的任务。这可以像这样做(请参阅计数每个关键字在其自己的列中的数量):数据: