任务:
- 进入gensim.similarities,了解需要/不需要什么,如果需要的话,可能需要稍作重构。
- 在corpora中,我们有很多语料库和许多接口问题,需要深入研究并重构这段代码。
关于语料库 - 我们有很多类(每个针对具体格式),也许将它们合并到一个名为Corpus
的 Package 器类是一个好主意,带有一个参数,例如:
现在
corpus_mallet = MalletCorpus("/path/to/filename", metadata=True)
corpus_simple = TextCorpus(input="/path/to/folder", metadata=False)
在我的建议中
corpus_mallet = Corpus("/path/to/filename", metadata=True, type="mallet")
corpus_simple = Corpus("/path/to/filename", metadata=True, type="text")
一方面,这简化了代码,无需找到具体的类,只需更改一个参数。另一方面,这个类承担了很多责任,这不是一个好的做法。
1条答案
按热度按时间wribegjk1#
在
corpora
包(例如malletcorpus)中,将save_corpus
方法的命名更改为_save_corpus
。save_corpus
不建议直接调用。此功能由
LowCorpus.serialize
自动调用;不要直接调用它,而是调用serialize
。因此,如果在方法名中添加
_
,则该方法可以解释为私有。