hadoop2流作业的多个输出文件

mspsb9vt  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(214)

我想按日期分割作业的输出( key=date , value=big_json ).
在hadoop1中,我有一个特殊的java类,继承自 MultipleTextOutputFormat . 据我所知,这在hadoop2中是不赞成的。
文件指出
与org.apache.hadoop.mapreduce.lib.output.multipleoutputs结合使用,以重新创建旧hadoop api的org.apache.hadoop.mapred.lib.multipletextoutputformat(etc)的行为。
但我真的不明白如何在我的剧本中使用它。我应该使用什么参数?
hadoop jar/usr/local/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.4.4.jar-d mapred.job.name=split parsed logs-d mapred.reduce.tasks=140-d mapred.task.timeout=10000000-mapper python-m timestamp and json-reducer org.apache.hadoop.mapred.lib.identityreducer-input/tmp/parsed_logs-output/tmp/splitted_logs-file/home/user/app.mod-cmdenv pythonpath=app.mod-outputformat org.apache.hadoop.mapreduce.lib.output.multipleoutputs

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题