nltk Texttiling返回相同的文本而不是瓦片,

7cjasjjr  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(43)

你好,
我遇到的问题是,它没有返回文本瓷砖,而是返回了我输入的相同文本。

corpus_root = 'C:/path/to/text/file'
wordlists = PlaintextCorpusReader(corpus_root, ['file.txt'])
praw = wordlists.raw('file.txt')

ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(praw)

所以,我没有得到一个瓷砖列表,而是得到了一个只有一个条目的列表,即文件.txt中的所有文本。我还尝试使用Python方法加载文本文件,结果也是一样的。

file = open("file.txt")
lines = file.read()

ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(lines)

你能帮我解决这个问题吗?
谢谢!

nfs0ujit

nfs0ujit1#

运行ttt.tokenize(lines)后,你应该得到一个字符串列表作为结果:[, , ],其中每个都是文本中的子主题。因此,你应该能够得到原始文本,没有任何删除,因为分词器唯一做的事情就是将文本分割成子主题。
希望这对你有所帮助!

相关问题