我有很多小的输入文件,我想用一些输入格式来组合它们,比如 CombineFileInputFormat 启动更少的Map器任务。我知道我可以使用javaapi来实现这一点,但是我不知道在我使用hadoop流时是否有一个流jar库来支持这个函数。
CombineFileInputFormat
pxq42qpu1#
hadoop流媒体使用 TextInputFormat 默认情况下,但可以使用任何其他输入格式,包括 CombineFileInputFormat . 可以使用选项从命令行更改输入格式 -inputformat . 一定要使用旧的api和实现 org.apache.hadoop.mapred.lib.CombineFileInputFormat . 新api尚不受支持。
TextInputFormat
-inputformat
org.apache.hadoop.mapred.lib.CombineFileInputFormat
$HADOOP_HOME/bin/hadoop jar \ $HADOOP_HOME/hadoop-streaming.jar \ -inputformat foo.bar.MyCombineFileInputFormat \ -Dmapred.max.split.size=524288000 \ -Dstream.map.input.ignoreKey=true \ ...
combinefileinputformat示例
1条答案
按热度按时间pxq42qpu1#
hadoop流媒体使用
TextInputFormat
默认情况下,但可以使用任何其他输入格式,包括CombineFileInputFormat
. 可以使用选项从命令行更改输入格式-inputformat
. 一定要使用旧的api和实现org.apache.hadoop.mapred.lib.CombineFileInputFormat
. 新api尚不受支持。combinefileinputformat示例