原始问题:#5675
我们已经合并了一个基本版本的TextDocumentSplitter,但它不支持空白清理或分词,所以让我们保持这个问题开放。
@sjrl 你想在预处理器中分享一下你对NLTK使用的看法吗?
- 最初由@julian-risch在#5675(评论)中发布*
我只是想说,我认为仍然值得支持NLTK,但是,我认为我们也可以从寻找其他选项中受益。Sol团队经常遇到这样的情况,即在包含项目符号和其他类似markdown元素(如代码、标题等)的文档上进行句子检测效果不佳。因为这些东西没有被检测为单独的“句子”,而在项目符号的情况下,有时会导致文档过长,因为所有项目符号都被归为一个文档。
所以我在想,是否有可能研究一下其他处理库,看看它们是否已经有比NLTK更好的原生支持。我知道这可能暂时超出了范围,但我想提出来。
- 最初由@sjrl在#5675(评论)中发布*
1条答案
按热度按时间kupeojn61#
我更改了问题的名称,以使其更加明确,我们应该研究现有基于NLTK的实现的替代方案。