我正在运行流式处理作业,用python脚本实现map和reduce。我用boto库创建的作业流。我正在使用gzip输入文件。如何创建gzip输出文件?
gjmwrych1#
我使用java处理gzip文件并在gzip压缩中生成输出。我使用下面的代码
FileOutputFormat.setCompressOutput(job, true); FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class); FileOutputFormat.setOutputPath(job, output path));
我希望您能在python中找到类似的api/代码。您可以生成gzip文件作为生成的输出。将“-d mapred.output.compress=true-d mapred.output.compression.codec=org.apache.hadoop.io.compress.gzipcodec”作为选项传递给流作业。
1条答案
按热度按时间gjmwrych1#
我使用java处理gzip文件并在gzip压缩中生成输出。我使用下面的代码
我希望您能在python中找到类似的api/代码。
您可以生成gzip文件作为生成的输出。将“-d mapred.output.compress=true-d mapred.output.compression.codec=org.apache.hadoop.io.compress.gzipcodec”作为选项传递给流作业。