我想找出最常出现的单词。但每次我运行FreqDist时,它不会返回最常见的单词,而是字母。
FreqDist({' ':496,e:306,t:205,a:182,s:181,n:160,o:146,r:142,i:118,'l':110,…})
下面是我的代码:第一个月
for i in range(newdf.shape[1]):
# Add each comment.
review_comments = review_comments + newdf['tokens1'][i]
个字符
退货
FreqDist({' ': 496, 'e': 306, 't': 205, 'a': 182, 's': 181, 'n': 160, 'o': 146, 'r': 142, 'i': 118, 'l': 110, ...})
型
1条答案
按热度按时间pgccezyw1#
你需要先使用nltk.word_tokenize:
字符串