我想通过pyspark在hadoop集群上利用nltk执行nlp任务。我们使用水蟒分布。群集处于空气间隙环境中,因此我无法运行 nltk.download() .我想我需要把数据下载到可以上网的辅助机器上。从哪里下载?如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据在哪里?是否需要在所有节点上复制数据?
nltk.download()
yruzcnhs1#
从哪里下载?你可以执行 nltk.download() 在您的计算机上,数据将下载到您的主目录下的文件夹 nltk_data 如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据在哪里?如果你抄这本书就足够了 nltk_data 到计算机上执行进程的用户下的主文件夹。如果不可能,可以使用 NLTK_DATA 用于设置位置的环境变量。查看如何从代码中配置nltk数据目录?更多关于这个的讨论是否需要在所有节点上复制数据?对
nltk_data
NLTK_DATA
1条答案
按热度按时间yruzcnhs1#
从哪里下载?
你可以执行
nltk.download()
在您的计算机上,数据将下载到您的主目录下的文件夹nltk_data
如何在hadoop集群上安装它?我只是复制文件吗?或者nltk需要知道数据在哪里?如果你抄这本书就足够了
nltk_data
到计算机上执行进程的用户下的主文件夹。如果不可能,可以使用NLTK_DATA
用于设置位置的环境变量。查看如何从代码中配置nltk数据目录?更多关于这个的讨论是否需要在所有节点上复制数据?
对