gensim 完全支持在Word2Vec模型中增量更新词汇表

eh57zj3b 于 5个月前发布在其他

关注(0)|答案(4)|浏览(67)

目前，Word2Vec模型中的词汇表更新还处于实验阶段。基于这里的讨论解决这个问题将对其他地方有所帮助，例如为sklearn-API类的Word2Vec添加partial_fit()功能。

gensim

来源：https://github.com/piskvorky/gensim/issues/1493

4条答案

按热度按时间

lf5gs5x21#

相关：#900(也为#700,#775,#435)。

赞(0）回复(0）举报 5个月前

46scxncf2#

在我看来，要使这个方法不属于实验性研究，需要对数据集的类型和特定设置进行一些重要的研究，以确定在哪些方面具有优势，以及在哪些方面只是花费时间而几乎没有或负面收益。增量训练是否改善这种模型本质上是非常依赖于上下文的。
(就我个人而言，我期望一个系统，其中所有现有的词/权重都被冻结，新的词向量通过类似于Doc2Vec推断的过程得出，这是一种更稳定/可辩护/抗错误的方法。)

赞(0）回复(0）举报 5个月前

uttx8gqw3#

是的，这里有两个方向：1)使其成为可能；2)确定它是否有意义。
#900 处理的是1);@gojomo正在谈论2)。
如果我们有1),我们可以将2)外包给所有询问(可能错误地)此功能的人。这是2vec最常请求的属性之一，这可能反映了许多应用程序中2vec的共同基本需求。

赞(0）回复(0）举报 5个月前

mu0hgdu04#

我们有(1),这就是为什么我的重点在(2)。而(2)只有在我们完成大量研究/实验，或者成功从其他人那里收集到这些结果之后才可能实现。在此之前，我相信现有的(1)"它是可能的"功能需要很多免责声明，有效地阻止初学者依赖它。

赞(0）回复(0）举报 5个月前