是否可以在批处理模式下训练spark word2vec模型

bweufnob 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(585)

我想知道是否有可能在批处理模式下训练spark word2vec。或者换句话说，如果有可能更新已经训练过的spark word2vec模型的词汇表。我的应用程序是：我的段落位于多个文件中，当我使用gensim时，我可以这样做

class MySentences(object):
    def __init__(self, file_list, folder):
        self.file_list = file_list
        self.folder = folder

    def __iter__(self):
        for file in self.file_list:
            if 'walk_' in file:
                print file
                with open(self.folder + file, 'r') as f:
                    for line in f:
                        yield line.split()

model = Word2Vec(MySentences(files, fileFolder), size=32, window=5, min_count=5, workers=15)

我甚至可以做到

for epoch in range(10):
    model.train(MySentences(files, fileFolder))

我想知道如何在spark word2vec中做类似的事情。
在spark中，我发现我只能对多个文件执行rdd联合，如下所示：

from pyspark.mllib.feature import Word2Vec 
from pyspark.sql import SQLContext

inp1 = sc.textFile("file1").map(lambda row: row.split('\t'))
inp2 = sc.textFile("file2").map(lambda row: row.split('\t'))

inp = sc.union([inp1,inp2])
word2vec = Word2Vec().setVectorSize(4).setMinCount(1)
model = word2vec.fit(inp)

否则，如果我用inp1训练模型，那么inp2，inp1中的单词将消失。
如果我不能在批处理模式下进行训练，我如何在将来用新段落更新训练过的模型？

apache-spark word2vec

来源：https://stackoverflow.com/questions/40250057/is-it-possible-to-train-spark-word2vec-model-in-batch-mode

1条答案

按热度按时间

ax6ht2ek1#

我想你可以：

for idx in range(1, 100, 1):
    model = word2vec.fit(data.sample(False, 0.01))
    model.save(sc, path)

在本例中，不确定sample函数是否总是获取看不见的数据。

赞(0）回复(0）举报 2021-05-27

我来回答

是否可以在批处理模式下训练spark word2vec模型

1条答案

相关问题

热门标签

最新问答