pandas 频率分布不是返回单词而是字母

dxxyhpgq 于 2023-08-01 发布在其他

关注(0)|答案(1)|浏览(69)

我想找出最常出现的单词。但每次我运行FreqDist时，它不会返回最常见的单词，而是字母。
FreqDist（{' '：496，e：306，t：205，a：182，s：181，n：160，o：146，r：142，i：118，'l'：110，…}）
下面是我的代码：第一个月

for i in range(newdf.shape[1]):
    # Add each comment.
    review_comments = review_comments + newdf['tokens1'][i]

个字符
退货

FreqDist({' ': 496, 'e': 306, 't': 205, 'a': 182, 's': 181, 'n': 160, 'o': 146, 'r': 142, 'i': 118, 'l': 110, ...})

型

1条答案

你需要先使用nltk.word_tokenize：

from nltk.tokenize import word_tokenize
tokens = nltk.word_tokenize(review_comments)
fdist = FreqDist(tokens)
fdist

字符串