生成hdfs序列文件

zxlwwiss  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(385)

我使用org.apache.pig.pigserver类从java运行pig脚本。我需要输出我的文件序列格式压缩在gz。我就是这么做的:

effectivePigProperties.put("mapred.output.compress", "true");
effectivePigProperties.put("mapred.output.format.class", "org.apache.hadoop.mapred.SequenceFileOutputFormat");
effectivePigProperties.put("mapred.output.compression.type", "SequenceFile.CompressionType.BLOCK");
effectivePigProperties.put("mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec");

输出是gz格式的,但不是序列文件。我错过了什么?

ivqmmu1c

ivqmmu1c1#

虽然在apache pig包(或其piggybank)中还没有出现,但是twitter的 elephant-bird 库提供了一个可以使用的sequencefilestorage实现。

相关问题