我在R中有一个数据框,其中有一列需要进行基本的文本分析。我可以根据需要修改this source中的代码。但是,我现在需要进行相同的分析,但针对的是数据组。我在这里包含了一个小示例的dput
。
structure(list(Pad.Name = c("MISSOURI W", "MISSOURI W", "MISSOURI W",
"LEE", "LEE", "LEE"), Message = c("pump maint", "PUMP MAINT", "Pump Maintenance",
"waiting on wireline",
"seating the ball", "Waiting on wireline")), row.names = 11:16, class = "data.frame")
我想按变量Pad.Name分组。我尝试使用quanteda
中的corpus_group
函数以及同一个包中的corpus
函数,设置参数如下:docid_field = dat$Pad.Name
和text_field = dat$Message
。然而这些似乎都不起作用。
对于每个唯一的Pad.Name,我想要的输出是最常用的单词,比如说前10个最常用的单词,以及这些单词的计数。类似于下面的内容,但是很明显,真实的计数会得到:
edit:table选项在这里似乎从来都不起作用,所以这里有一个dput和我想要的输出的数据框
structure(list(Pad.Name = c("MISSOURI W", "MISSOURI W", "LEE",
"LEE"), Word = c("pump", "maint", "waiting", "wireline"), Count = c(3,
2, 2, 2)), class = "data.frame", row.names = c(NA, -4L))
output <- data.frame(Pad.Name = c("MISSOURI W", "MISSOURI W", "LEE", "LEE"), Word = c("pump", "maint", "waiting", "wireline"), Count = c(3,2,2,2))
2条答案
按热度按时间kkbh8khc1#
输入:
创建于2023年1月26日,使用reprex v2.0.2
mrphzbgm2#
您可以按 Pad.Name
split
,strsplit
字符串并使用table
计算单词数。数据