mapreduce:使用python编写序列文件[流]

6rqinv9w  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(370)

我正在尝试用mapreduce编写序列文件。我用java成功地做到了这一点,但我不知道如何用python做到这一点。
谢谢您!

w6mmgewl

w6mmgewl1#

hadoop接受streaming命令选项 -outputformat .
要将输出文件生成为序列文件,请使用 -outputformat SequenceFileOutputFormat .
例如:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\
    -mapper MapperClass \
    -reducer ReducerClass

默认情况下, -inputformat 以及 -outputformat 设置为 TextInputFormat 以及 TextOutputFormat 分别。

相关问题