mapreduce:使用python编写序列文件[流]

6rqinv9w 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(370)

我正在尝试用mapreduce编写序列文件。我用java成功地做到了这一点，但我不知道如何用python做到这一点。
谢谢您！

hadoop mapreduce hadoop-streaming

来源：https://stackoverflow.com/questions/42777919/mapreduce-writing-sequence-file-using-pythonstreaming

1条答案

按热度按时间

w6mmgewl1#

hadoop接受streaming命令选项 -outputformat .
要将输出文件生成为序列文件，请使用 -outputformat SequenceFileOutputFormat .
例如：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\
    -mapper MapperClass \
    -reducer ReducerClass

默认情况下， -inputformat 以及 -outputformat 设置为 TextInputFormat 以及 TextOutputFormat 分别。

赞(0）回复(0）举报 2021-05-30

我来回答

mapreduce:使用python编写序列文件[流]

1条答案

相关问题

热门标签

最新问答