lzo在hdfs上压缩和索引文件?

fdbelqdn  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(548)

通常我会做以下操作来使用lzo:
使用lzop命令压缩本地磁盘上的数据文件。
把它放到hdfs里。
使用分布式lzo索引器生成.index文件。
我想知道有没有一种方法可以同时压缩和索引hdfs上的原始文件?

lztngnrs

lztngnrs1#

是的,你可以:
在客户端和服务器上的core-site.xml中,将com.hadoop.compression.lzo.lzopcodec附加到以逗号分隔的编解码器列表中:

  1. <property>
  2. <name>io.compression.codecs</name>
  3. <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,
  4. org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.DeflateCodec,
  5. org.apache.hadoop.io.compress.SnappyCodec,com.hadoop.compression.lzo.LzopCodec</value>
  6. </property>

在jobtracker主机上编辑mapred-site.xml文件:

  1. <property>
  2. <name>mapred.compress.map.output</name>
  3. <value>true</value>
  4. </property>
  5. <property>
  6. <name>mapred.map.output.compression.codec</name>
  7. <value>com.hadoop.compression.lzo.LzopCodec</value>
  8. </property>
  9. <property>
  10. <name>mapred.output.compression.type</name>
  11. <value>BLOCK</value>
  12. </property>
展开查看全部

相关问题