pandas 频率分布不是返回单词而是字母

dxxyhpgq  于 2023-08-01  发布在  其他
关注(0)|答案(1)|浏览(68)

我想找出最常出现的单词。但每次我运行FreqDist时,它不会返回最常见的单词,而是字母。
FreqDist({' ':496,e:306,t:205,a:182,s:181,n:160,o:146,r:142,i:118,'l':110,…})
下面是我的代码:第一个月

for i in range(newdf.shape[1]):
    # Add each comment.
    review_comments = review_comments + newdf['tokens1'][i]

个字符
退货

FreqDist({' ': 496, 'e': 306, 't': 205, 'a': 182, 's': 181, 'n': 160, 'o': 146, 'r': 142, 'i': 118, 'l': 110, ...})

pgccezyw

pgccezyw1#

你需要先使用nltk.word_tokenize:

from nltk.tokenize import word_tokenize
tokens = nltk.word_tokenize(review_comments)
fdist = FreqDist(tokens)
fdist

字符串

相关问题