nltk Texttiling返回相同的文本而不是瓦片,

7cjasjjr 于 5个月前发布在其他

关注(0)|答案(1)|浏览(43)

你好，
我遇到的问题是，它没有返回文本瓷砖，而是返回了我输入的相同文本。

corpus_root = 'C:/path/to/text/file'
wordlists = PlaintextCorpusReader(corpus_root, ['file.txt'])
praw = wordlists.raw('file.txt')

ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(praw)

所以，我没有得到一个瓷砖列表，而是得到了一个只有一个条目的列表，即文件.txt中的所有文本。我还尝试使用Python方法加载文本文件，结果也是一样的。

file = open("file.txt")
lines = file.read()

ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(lines)

你能帮我解决这个问题吗？
谢谢！

nltk

来源：https://github.com/nltk/nltk/issues/2882

1条答案

按热度按时间

nfs0ujit1#

运行ttt.tokenize(lines)后，你应该得到一个字符串列表作为结果：[, , ],其中每个都是文本中的子主题。因此，你应该能够得到原始文本，没有任何删除，因为分词器唯一做的事情就是将文本分割成子主题。
希望这对你有所帮助！

赞(0）回复(0）举报 5个月前

我来回答

nltk Texttiling返回相同的文本而不是瓦片,

1条答案

相关问题

热门标签

最新问答