定义预处理文本(文本):标记化文档= nltk.标记化. RegexpTokenizer('[ a-zA-Z0 - 9'] +')已清理标记=[单词.低位()用于标记化文档中的单词,如果单词.低位()不在停止单词中]已词干化文本=[nltk.词干. PorterStemmer().词干(单词)用于已清理标记中的单词]返回已词干化文本data ["文本"]=数据["文本"]. apply(预处理文本)数据头()错误信息:类型错误:"RegexpTokenizer"对象不可迭代
ovfsdjhp1#
您的tokenized_document对象是nltk.tokenize.RegexpTokenizer的一个示例。您试图迭代tokenized_document的值(在for word in tokenized_document表达式中),但nltk.tokenize.RegexpTokenizer不支持该用法。(这是'RegexpTokenizer' object is not iterable消息告诉您的。)
tokenized_document
nltk.tokenize.RegexpTokenizer
for word in tokenized_document
'RegexpTokenizer' object is not iterable
1条答案
按热度按时间ovfsdjhp1#
您的
tokenized_document
对象是nltk.tokenize.RegexpTokenizer
的一个示例。您试图迭代tokenized_document
的值(在for word in tokenized_document
表达式中),但nltk.tokenize.RegexpTokenizer
不支持该用法。(这是'RegexpTokenizer' object is not iterable
消息告诉您的。)