我编写了一个仅Map的作业,其中数据经过一些处理后从一个hbase表写入另一个hbase表。但在我心中 setup 方法,我从一个文件加载数据,这比我的 mapred.task.timeout 配置。我读了这里的解释。我的问题是,1) 在安装阶段的中间,任务和任务跟踪器之间是否没有通信?2) 如何更新状态字符串??
setup
mapred.task.timeout
9gm1akwq1#
只要有进展,作业就不会超时进度报告很重要,因为hadoop不会让正在取得进展的任务失败。以下所有操作构成进度:•读取输入记录(在Map器或缩减器中)•编写输出记录(在Map器或缩减器中)•设置报告器的状态描述(使用报告器的setstatus()方法)•递增计数器(使用reporter的incrcounter()方法)•调用reporter的progress()方法所以,如果你在一个正常的时间间隔内继续做这些事情,工作就不会被终止。
1条答案
按热度按时间9gm1akwq1#
只要有进展,作业就不会超时
进度报告很重要,因为hadoop不会让正在取得进展的任务失败。以下所有操作构成进度:
•读取输入记录(在Map器或缩减器中)
•编写输出记录(在Map器或缩减器中)
•设置报告器的状态描述(使用报告器的setstatus()方法)
•递增计数器(使用reporter的incrcounter()方法)
•调用reporter的progress()方法
所以,如果你在一个正常的时间间隔内继续做这些事情,工作就不会被终止。