在hadoop中添加对zip文件的支持

bvjveswy  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(521)

hadoop默认支持读取.gz压缩文件,我希望对.zip文件有类似的支持。我应该能够通过使用hadoop-text命令读取zip文件的内容。
我正在寻找一种方法,我不必实现inputformat和recordreader的zip文件。我希望我的工作是完全不知道格式的输入文件,它应该工作,无论数据是压缩或解压缩。与.gz文件类似。

cgvd09ve

cgvd09ve1#

很抱歉,在hadoop中我只看到了两种方法,一种是使用定制的inputformat,另一种是基于 ZipInputStream (你明确指出你不感兴趣)或 .zip 在启动作业之前输入文件并解压缩。
我个人会在hadoop之外做这件事,在运行作业之前,通过脚本转换成gzip(或者lzo索引,如果我需要可拆分的文件),但是你肯定已经想到了。。。
我还想看看是否有人能想出一个意想不到的答案。

相关问题