我有一个文件,我正试图加载到Pig是压缩与snappy。我在grunt中设置了配置选项,就像本期jira中描述的那样,但是我仍然在结果中得到压缩数据。
当我运行这个作业时,它会显示:org.apache.hadoop.io.compress.snapy.loadsnapy-snapy native library可用
为了这份工作我做了一个简单的
a=使用pigstorage()作为(x,y,z)加载“/path/to/snappy/file”
然后:
转储数据
将输出压缩数据。
有人知道我能做些什么来正确读取数据吗?提前谢谢。
1条答案
按热度按时间6ju8rftf1#
pigstorage使用pigtextinputformat作为输入,它将检测并使用snappy压缩文件,但是这些文件必须具有正确的扩展名,以便hadoop压缩编解码器工厂知道如何使用snappy。
我猜你的文件没有.snappy扩展名,请尝试重命名文件并重试