我用gzip压缩文件设置了第一个配置单元表:
CREATE EXTERNAL TABLE table_gzip (
col1,
col2,
col3
)
ROW FORMAT DELIMITED,
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
LOCATION
's3://bucket/files_gzip/';
然后我用orc格式设置了另一个配置单元表:
CREATE EXTERNAL TABLE table_orc (
col1,
col2,
col3
)
STORED AS ORC
LOCATION
's3://bucket/files_orc/';
ALTER TABLE table_orc SET tblproperties ("orc.compress" ="SNAPPY");
然后我使用以下查询从gzip解压并重新压缩到orc:
INSERT OVERWRITE TABLE table_gzip SELECT * FROM table_orc
这个查询完成后,我在“s3://bucket/files\u orc/”中有了新的orc压缩文件。到现在为止,一直都还不错。
但是,当我查看这些文件时,它们从500个1.2gib文件变成了500个1.6gib文件。
我做错了什么?为什么我的orc snappy压缩文件比原始文件大?gzip是一种更好的压缩方法吗?
谢谢你的时间。
暂无答案!
目前还没有任何答案,快来回答吧!