hadoop流媒体是否有一种联合输入格式?

eqfvzcg8  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(353)

我有很多小的输入文件,我想用一些输入格式来组合它们,比如 CombineFileInputFormat 启动更少的Map器任务。我知道我可以使用javaapi来实现这一点,但是我不知道在我使用hadoop流时是否有一个流jar库来支持这个函数。

pxq42qpu

pxq42qpu1#

hadoop流媒体使用 TextInputFormat 默认情况下,但可以使用任何其他输入格式,包括 CombineFileInputFormat . 可以使用选项从命令行更改输入格式 -inputformat . 一定要使用旧的api和实现 org.apache.hadoop.mapred.lib.CombineFileInputFormat . 新api尚不受支持。

$HADOOP_HOME/bin/hadoop jar \
      $HADOOP_HOME/hadoop-streaming.jar \
      -inputformat foo.bar.MyCombineFileInputFormat \
      -Dmapred.max.split.size=524288000 \
      -Dstream.map.input.ignoreKey=true \
      ...

combinefileinputformat示例

相关问题