gensim 重构TextCorpus代码以共享多处理和预处理逻辑,

xam8gpfp  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(70)

描述

这是关于 TextDirectoryCorpus 添加的后续讨论(参见 #1387 )。作为关于该票据的讨论的一部分,@piskvorky 提到 textcorpus 代码没有明确的计划。它原本只是为了其他人工作而提供的示例代码。然而,似乎许多人(以及 gensim 教程作者)都需要通用的文本处理语料库。我进行了一些分析(在 #1387 中讨论),并发现代码中散布着几个文本语料库类。这些包括 TextCorpusTextDirectoryCorpusBrownCorpusWikiCorpusLineSentenceText8Corpus
我建议将这些不同语料库的共享逻辑合并到 textcorpus 模块中。WikiCorpus 可以继续留在 wikicorpus 模块中,因为它的预处理对 wiki 标记非常特定。然而,其他应该移动到 textcorpus 模块。一旦 ... 完成,BrownCorpus 将是一个很好的候选者,可以转移到某种 datasets 子包。但至少现在,textcorpus 是比它目前所在的 word2vec 模块更好的家。

iugsix8n

iugsix8n1#

有道理,谢谢!
对我来说,更重要的是共享逻辑,使事物模块化,更容易发现,而不是实现所在的位置(模块)。我们无论如何都应该从corpora.__init__导入所有类(所以from gensim.corpora import WikiCorpus, LineSentence, BrownCorpus...可以工作)。实际实现的特定模块名称并不重要,除了作为人们自定义扩展的蓝图示例。

相关问题