haystack 在我们的DocumentSplitter中为NLTK寻找替代方案,

a11xaf1n  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(36)

原始问题:#5675
我们已经合并了一个基本版本的TextDocumentSplitter,但它不支持空白清理或分词,所以让我们保持这个问题开放。
@sjrl 你想在预处理器中分享一下你对NLTK使用的看法吗?

  • 最初由@julian-risch在#5675(评论)中发布*

我只是想说,我认为仍然值得支持NLTK,但是,我认为我们也可以从寻找其他选项中受益。Sol团队经常遇到这样的情况,即在包含项目符号和其他类似markdown元素(如代码、标题等)的文档上进行句子检测效果不佳。因为这些东西没有被检测为单独的“句子”,而在项目符号的情况下,有时会导致文档过长,因为所有项目符号都被归为一个文档。
所以我在想,是否有可能研究一下其他处理库,看看它们是否已经有比NLTK更好的原生支持。我知道这可能暂时超出了范围,但我想提出来。

  • 最初由@sjrl在#5675(评论)中发布*
kupeojn6

kupeojn61#

我更改了问题的名称,以使其更加明确,我们应该研究现有基于NLTK的实现的替代方案。

相关问题