haystack 在我们的DocumentSplitter中为NLTK寻找替代方案,

a11xaf1n 于 2个月前发布在其他

关注(0)|答案(1)|浏览(36)

原始问题：#5675
我们已经合并了一个基本版本的TextDocumentSplitter,但它不支持空白清理或分词，所以让我们保持这个问题开放。
@sjrl 你想在预处理器中分享一下你对NLTK使用的看法吗？

最初由@julian-risch在#5675(评论)中发布*

我只是想说，我认为仍然值得支持NLTK,但是，我认为我们也可以从寻找其他选项中受益。Sol团队经常遇到这样的情况，即在包含项目符号和其他类似markdown元素(如代码、标题等)的文档上进行句子检测效果不佳。因为这些东西没有被检测为单独的“句子”，而在项目符号的情况下，有时会导致文档过长，因为所有项目符号都被归为一个文档。
所以我在想，是否有可能研究一下其他处理库，看看它们是否已经有比NLTK更好的原生支持。我知道这可能暂时超出了范围，但我想提出来。