apache pig-最佳配置单元文件格式

gorkyyrv  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(333)

有人能解释一下,在pigscript中使用hcatalog时,哪些配置单元的文件格式是有效的吗。
我想了解哪些配置单元文件格式将是有效的,因为目前我们有一个基于日期的分区配置单元表,并且底层文件是一个顺序文件。阅读80天的数据创造了大约70000个Map绘制者,这是非常巨大的。尝试将Map分割大小更改为2gb,但没有减少多少。
因此,与其按顺序文件,不如寻找其他可以减少Map器数量的选项。每个数据的数据大小为9gb。
有什么建议或灵感吗?
谢谢您。

jdg4fx2g

jdg4fx2g1#

据我所知,orc是最适合hive的文件格式,它具有较高的压缩比,高效地处理大量数据,而且读取速度更快。orc以列形式存储并压缩,这会导致较小的磁盘读取。列格式也是优化配置单元中矢量化的理想格式。

相关问题