你好,
我遇到的问题是,它没有返回文本瓷砖,而是返回了我输入的相同文本。
corpus_root = 'C:/path/to/text/file'
wordlists = PlaintextCorpusReader(corpus_root, ['file.txt'])
praw = wordlists.raw('file.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(praw)
所以,我没有得到一个瓷砖列表,而是得到了一个只有一个条目的列表,即文件.txt中的所有文本。我还尝试使用Python方法加载文本文件,结果也是一样的。
file = open("file.txt")
lines = file.read()
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(lines)
你能帮我解决这个问题吗?
谢谢!
1条答案
按热度按时间nfs0ujit1#
运行ttt.tokenize(lines)后,你应该得到一个字符串列表作为结果:[, , ],其中每个都是文本中的子主题。因此,你应该能够得到原始文本,没有任何删除,因为分词器唯一做的事情就是将文本分割成子主题。
希望这对你有所帮助!