我正在尝试用mapreduce编写序列文件。我用java成功地做到了这一点,但我不知道如何用python做到这一点。谢谢您!
w6mmgewl1#
hadoop接受streaming命令选项 -outputformat .要将输出文件生成为序列文件,请使用 -outputformat SequenceFileOutputFormat .例如:
-outputformat
-outputformat SequenceFileOutputFormat
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\ -mapper MapperClass \ -reducer ReducerClass
默认情况下, -inputformat 以及 -outputformat 设置为 TextInputFormat 以及 TextOutputFormat 分别。
-inputformat
TextInputFormat
TextOutputFormat
1条答案
按热度按时间w6mmgewl1#
hadoop接受streaming命令选项
-outputformat
.要将输出文件生成为序列文件,请使用
-outputformat SequenceFileOutputFormat
.例如:
默认情况下,
-inputformat
以及-outputformat
设置为TextInputFormat
以及TextOutputFormat
分别。