pig//spark jobs看不到python模块

vc9ivgsu  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(428)

我的hadoop集群有一个反复出现的问题,即有时一个正常工作的代码会停止看到位于正确位置的python模块。我在找可能面临同样问题的人的建议。
当我第一次开始编程,一个代码停止工作时,我在这里问了一个问题,有人告诉我去睡觉,明天早上它应该会工作,或者其他一些“你是个傻瓜,你一定改变了什么”之类的评论。
我运行了几次代码,它的工作,我去睡觉,早上我试图再次运行它,但它失败了。有时我用ctrl+c杀死作业,有时我用ctrl+z。但这只会占用资源,并且不会导致除此之外的任何其他问题—代码仍在运行。在代码运行之后,我还没有看到这个问题。这通常发生在第二天早上,当我在10个小时前离开的时候,在代码工作之后开始工作。重启集群通常可以解决这个问题
我目前正在检查集群是否因为某种原因而重新启动,或者它的某个部分是否出现故障,但到目前为止,ambari屏幕显示的都是绿色的。我不确定是否有一些自动维护或是一些已知的会把事情搞砸的东西。
我还在读大象书,抱歉,如果这个主题在x页上有明确的说明,我只是还没到那一页。
我查看了所有的错误日志,但唯一有意义的是在stderr中:

File "/data5/hadoop/yarn/local/usercache/melvyn/appcache/application_1470668235545_0029/container_e80_1470668235545_0029_01_000002/format_text.py", line 3, in <module>

    from formatting_functions import *

ImportError: No module named formatting_functions
6ju8rftf

6ju8rftf1#

所以我们解决了问题。这个问题对我们的组织来说是特别的。我们已经安装了所有的数据节点nfs。有时节点会出现故障,必须有人将其恢复并重新安装。
我们的脚本指定了到库的路径,如:'

pig -Dmapred.child.env="PYTHONPATH=$path_to_mnt$hdfs_library_path" ...

所以pig找不到库,因为$path\u to\u mnt对于其中一个节点无效。

相关问题