elasticmapreduce流压缩输出

nx7onnlm  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(303)

我正在运行流式处理作业,用python脚本实现map和reduce。我用boto库创建的作业流。
我正在使用gzip输入文件。如何创建gzip输出文件?

gjmwrych

gjmwrych1#

我使用java处理gzip文件并在gzip压缩中生成输出。我使用下面的代码

FileOutputFormat.setCompressOutput(job, true);
    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);  
    FileOutputFormat.setOutputPath(job, output path));

我希望您能在python中找到类似的api/代码。
您可以生成gzip文件作为生成的输出。将“-d mapred.output.compress=true-d mapred.output.compression.codec=org.apache.hadoop.io.compress.gzipcodec”作为选项传递给流作业。

相关问题