我使用org.apache.pig.pigserver类从java运行pig脚本。我需要输出我的文件序列格式压缩在gz。我就是这么做的:
effectivePigProperties.put("mapred.output.compress", "true");
effectivePigProperties.put("mapred.output.format.class", "org.apache.hadoop.mapred.SequenceFileOutputFormat");
effectivePigProperties.put("mapred.output.compression.type", "SequenceFile.CompressionType.BLOCK");
effectivePigProperties.put("mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec");
输出是gz格式的,但不是序列文件。我错过了什么?
1条答案
按热度按时间ivqmmu1c1#
虽然在apache pig包(或其piggybank)中还没有出现,但是twitter的 elephant-bird 库提供了一个可以使用的sequencefilestorage实现。