mapreduce-确认文件是否被分割的正确方法

yvt65v4c  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(324)

我们有很多xml文件,我们希望使用一个mapper任务来处理一个xml,因为很明显,这样可以简化处理(解析)过程。
我们编写了一个mapreduce程序,通过重写输入格式类的issplitable方法来实现这一点,看起来效果不错。
但是,我们想确认是否使用一个Map器来处理一个xml文件。有没有办法通过查看驱动程序生成的日志或其他方式来确认。
谢谢

o7jaxewo

o7jaxewo1#

这是命令。

mapred job -counter job_1449114544347_0001 org.apache.hadoop.mapreduce.JobCounter TOTAL_LAUNCHED_MAPS

使用mapred job-counter命令可以获得许多细节。您可以在此播放列表中查看视频54和55。它详细介绍了柜台。

gstyhher

gstyhher2#

要回答您的问题,只需检查Map器计数的数量。它应该等于输入文件的数量。
例子:

/ds/input 
    /file1.xml
    /file2.xml
    /file3.xml

那么Map器计数应该是3。

相关问题