如何使用apachezeppelin笔记本序列化pyspark中的gensim语料库？

4uqofj5v 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(455)

我试图创建一个gensim语料库并将其保存到任意hdfs或常规fs路径。我正在使用pyspark（2.2.1）并在hadoop集群上运行一个zeppelin笔记本。下面是我的最小示例：

from gensim import corpora
import os

path = "/my/existing/hadoop/path"
corpus = [[(0,0), (1,2)]]
corpora.MmCorpus.serialize(os.path.join(path,"corpus.mm"), corpus)

这会导致错误：

[Errno 2] No such file or directory: '/my/existing/hadoop/path/corpus.mm'

尽管路径存在。
进行以下工作。

corpora.MmCorpus.serialize("corpus.mm", corpus)
corpora.MmCorpus.serialize(os.path.join("/tmp","corpus.mm"), corpus)

但是，我找不到它。我查过了 /tmp 以及 hadoop fs -ls /tmp 使用pyspark时需要什么样的路径？

hadoop pyspark apache-zeppelin serialization gensim

来源：https://stackoverflow.com/questions/48403942/how-to-serialize-gensim-corpus-in-pyspark-using-apache-zeppelin-notebook

1条答案

按热度按时间

8tntrjer1#

使用pyspark时需要什么样的路径？
保存常规路径时需要常规路径。只需确保齐柏林飞艇有权写入所需位置。您还必须知道当前会话运行在集群的哪个节点上。
进行以下工作。
corpora.mmcorpus.serialize（“corpus.mm”，corpus）corpora.mmcorpus.serialize（os.path.join（“/tmp”，“corpus.mm”），corpus）
位置可以通过

import os
print(os.getcwd())

赞(0）回复(0）举报 2021-05-29

我来回答

如何使用apachezeppelin笔记本序列化pyspark中的gensim语料库？

1条答案

相关问题

热门标签

最新问答