如何在hadoop流媒体中使用python sklearn包

r8uurelv  于 2021-06-04  发布在  Hadoop
关注(0)|答案(0)|浏览(215)

嗨:目前我运行作业使用hadoop流,在我的Map器,我需要使用sklearn包作为我的程序的一部分,但不幸的是sklearn包没有安装在我的hadoop集群节点。我在google上搜索了这个问题,发现我可以将这个包和我的作业文件一起发送,并使用zipimport从我的.tar.gz导入包,然而,当我下载sklearn from的源代码时http://scikit-learn.org/stable/install.html 或者https://pypi.python.org/pypi/scikit-learn/0.14.1 ,并尝试

python setup.py build --inplace

或使用

python setup.py

在交互式会话中选择inplacebuild,无论哪种方式,我都可以在sklearn源代码文件夹下获得一个新的build文件夹,然后我尝试将~/build/lib.linux-x86\u 64-2.6/sklearn/压缩到一个.zip文件中,并按照以下说明操作:http://docs.python.org/2/library/zipimport.html 或者在这里:如何将python包包含在hadoop流作业中?但是我会得到一个错误

"__check_build is not a folder"

然后我检查了我的zip文件,确认这是一个文件夹。似乎我没有正确构建sklearn包。所以有人能给我指出正确的方向吗?谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题