有人能解释一下,在pigscript中使用hcatalog时,哪些配置单元的文件格式是有效的吗。我想了解哪些配置单元文件格式将是有效的,因为目前我们有一个基于日期的分区配置单元表,并且底层文件是一个顺序文件。阅读80天的数据创造了大约70000个Map绘制者,这是非常巨大的。尝试将Map分割大小更改为2gb,但没有减少多少。因此,与其按顺序文件,不如寻找其他可以减少Map器数量的选项。每个数据的数据大小为9gb。有什么建议或灵感吗?谢谢您。
jdg4fx2g1#
据我所知,orc是最适合hive的文件格式,它具有较高的压缩比,高效地处理大量数据,而且读取速度更快。orc以列形式存储并压缩,这会导致较小的磁盘读取。列格式也是优化配置单元中矢量化的理想格式。
1条答案
按热度按时间jdg4fx2g1#
据我所知,orc是最适合hive的文件格式,它具有较高的压缩比,高效地处理大量数据,而且读取速度更快。orc以列形式存储并压缩,这会导致较小的磁盘读取。列格式也是优化配置单元中矢量化的理想格式。