我一直在尝试运行一个Pig的工作与亚马逊电子病历的多个步骤。以下是我的环境的详细信息:
节点数:20 ami版本:3.1.0 hadoop发行版:2.4.0
pig脚本有多个步骤,它生成了一个长时间运行的map reduce作业,该作业同时具有map阶段和reduce阶段。在运行了一段时间(有时是一个小时,有时是三到四个小时)之后,作业就被终止了。作业的资源管理器上的信息是:
从hadoop接收的kill作业(auth:simple)at作业在运行状态下收到kill。
显然,我没有杀它:)
我的问题是:我该如何着手找出到底发生了什么?如何诊断问题?查看哪些日志文件(grep要查找的内容)?任何关于适当日志文件的帮助都会非常有用。我对yarn/hadoop2.0还不熟悉
1条答案
按热度按时间oxcyiej71#
原因有很多。在集群上启用调试,有关更多信息,请参阅stderr日志中的。
更多详情请参见:http://docs.aws.amazon.com/elasticmapreduce/latest/developerguide/emr-plan-debugging.html