对gensim.corpora和gensim.similarities的初步调查/重构,

wf82jlnq  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(75)

任务:

  1. 进入gensim.similarities,了解需要/不需要什么,如果需要的话,可能需要稍作重构。
  2. 在corpora中,我们有很多语料库和许多接口问题,需要深入研究并重构这段代码。
    关于语料库 - 我们有很多类(每个针对具体格式),也许将它们合并到一个名为Corpus的 Package 器类是一个好主意,带有一个参数,例如:
    现在
corpus_mallet = MalletCorpus("/path/to/filename", metadata=True)
corpus_simple = TextCorpus(input="/path/to/folder", metadata=False)

在我的建议中

corpus_mallet = Corpus("/path/to/filename", metadata=True, type="mallet")
corpus_simple = Corpus("/path/to/filename", metadata=True, type="text")

一方面,这简化了代码,无需找到具体的类,只需更改一个参数。另一方面,这个类承担了很多责任,这不是一个好的做法。

wribegjk

wribegjk1#

corpora包(例如malletcorpus)中,将save_corpus方法的命名更改为_save_corpus
save_corpus不建议直接调用。
此功能由LowCorpus.serialize自动调用;不要直接调用它,而是调用serialize
因此,如果在方法名中添加_,则该方法可以解释为私有。

相关问题