当前我的num reduce任务设置为 job.setNumReduceTasks(100); 所以我的最终输出目录在s3中,如下所示
job.setNumReduceTasks(100);
/output/part-r-00000.gz /output/part-r-00001.gz ... etc
为了计算所有的行,我必须手动下载和解压缩所有文件,并通过每个文件来计算总行数。hadoop上下文中是否有total line metric存储?
2hh7jdfx1#
map reduce应用程序日志存储map和reduce任务的计数器。对于所有的reducer,如果您查看作业日志(确切地说是计数器),类似“reduce output records”的内容应该会为您提供所需的信息。然而,这是hdp平台,rmui在job counter部分有所有信息。
1条答案
按热度按时间2hh7jdfx1#
map reduce应用程序日志存储map和reduce任务的计数器。对于所有的reducer,如果您查看作业日志(确切地说是计数器),类似“reduce output records”的内容应该会为您提供所需的信息。然而,这是hdp平台,rmui在job counter部分有所有信息。