描述
这是关于 TextDirectoryCorpus
添加的后续讨论(参见 #1387 )。作为关于该票据的讨论的一部分,@piskvorky 提到 textcorpus
代码没有明确的计划。它原本只是为了其他人工作而提供的示例代码。然而,似乎许多人(以及 gensim 教程作者)都需要通用的文本处理语料库。我进行了一些分析(在 #1387 中讨论),并发现代码中散布着几个文本语料库类。这些包括 TextCorpus
、TextDirectoryCorpus
、BrownCorpus
、WikiCorpus
、LineSentence
和 Text8Corpus
。
我建议将这些不同语料库的共享逻辑合并到 textcorpus
模块中。WikiCorpus
可以继续留在 wikicorpus
模块中,因为它的预处理对 wiki 标记非常特定。然而,其他应该移动到 textcorpus
模块。一旦 ... 完成,BrownCorpus
将是一个很好的候选者,可以转移到某种 datasets
子包。但至少现在,textcorpus
是比它目前所在的 word2vec
模块更好的家。
1条答案
按热度按时间iugsix8n1#
有道理,谢谢!
对我来说,更重要的是共享逻辑,使事物模块化,更容易发现,而不是实现所在的位置(模块)。我们无论如何都应该从
corpora.__init__
导入所有类(所以from gensim.corpora import WikiCorpus, LineSentence, BrownCorpus...
可以工作)。实际实现的特定模块名称并不重要,除了作为人们自定义扩展的蓝图示例。