如何在hadoop流媒体中使用python sklearn包

r8uurelv 于 2021-06-04 发布在 Hadoop

关注(0)|答案(0)|浏览(225)

嗨：目前我运行作业使用hadoop流，在我的Map器，我需要使用sklearn包作为我的程序的一部分，但不幸的是sklearn包没有安装在我的hadoop集群节点。我在google上搜索了这个问题，发现我可以将这个包和我的作业文件一起发送，并使用zipimport从我的.tar.gz导入包，然而，当我下载sklearn from的源代码时http://scikit-learn.org/stable/install.html 或者https://pypi.python.org/pypi/scikit-learn/0.14.1 ，并尝试

python setup.py build --inplace

或使用

python setup.py

在交互式会话中选择inplacebuild，无论哪种方式，我都可以在sklearn源代码文件夹下获得一个新的build文件夹，然后我尝试将~/build/lib.linux-x86\u 64-2.6/sklearn/压缩到一个.zip文件中，并按照以下说明操作：http://docs.python.org/2/library/zipimport.html 或者在这里：如何将python包包含在hadoop流作业中？但是我会得到一个错误

"__check_build is not a folder"

然后我检查了我的zip文件，确认这是一个文件夹。似乎我没有正确构建sklearn包。所以有人能给我指出正确的方向吗？谢谢！

hadoop streaming python scikit-learn

来源：https://stackoverflow.com/questions/22055358/how-to-use-python-sklearn-package-in-hadoop-streaming

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何在hadoop流媒体中使用python sklearn包

暂无答案！

相关问题

热门标签

最新问答