在空腔环境中安装nltk数据

jhkqcmku  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(397)

我想通过pyspark在hadoop集群上利用nltk执行nlp任务。我们使用水蟒分布。群集处于空气间隙环境中,因此我无法运行 nltk.download() .
我想我需要把数据下载到可以上网的辅助机器上。从哪里下载?如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据在哪里?是否需要在所有节点上复制数据?

yruzcnhs

yruzcnhs1#

从哪里下载?
你可以执行 nltk.download() 在您的计算机上,数据将下载到您的主目录下的文件夹 nltk_data 如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据在哪里?
如果你抄这本书就足够了 nltk_data 到计算机上执行进程的用户下的主文件夹。如果不可能,可以使用 NLTK_DATA 用于设置位置的环境变量。查看如何从代码中配置nltk数据目录?更多关于这个的讨论
是否需要在所有节点上复制数据?

相关问题