hadoop默认支持读取.gz压缩文件,我希望对.zip文件有类似的支持。我应该能够通过使用hadoop-text命令读取zip文件的内容。我正在寻找一种方法,我不必实现inputformat和recordreader的zip文件。我希望我的工作是完全不知道格式的输入文件,它应该工作,无论数据是压缩或解压缩。与.gz文件类似。
cgvd09ve1#
很抱歉,在hadoop中我只看到了两种方法,一种是使用定制的inputformat,另一种是基于 ZipInputStream (你明确指出你不感兴趣)或 .zip 在启动作业之前输入文件并解压缩。我个人会在hadoop之外做这件事,在运行作业之前,通过脚本转换成gzip(或者lzo索引,如果我需要可拆分的文件),但是你肯定已经想到了。。。我还想看看是否有人能想出一个意想不到的答案。
ZipInputStream
.zip
1条答案
按热度按时间cgvd09ve1#
很抱歉,在hadoop中我只看到了两种方法,一种是使用定制的inputformat,另一种是基于
ZipInputStream
(你明确指出你不感兴趣)或.zip
在启动作业之前输入文件并解压缩。我个人会在hadoop之外做这件事,在运行作业之前,通过脚本转换成gzip(或者lzo索引,如果我需要可拆分的文件),但是你肯定已经想到了。。。
我还想看看是否有人能想出一个意想不到的答案。