在运行tez引擎的hive中管理输入分割大小

f4t66c6m  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(340)

我想更好地了解如何在tez引擎中计算输入分割。
我知道hive.input.format属性可以设置为hiveinputformat(默认)或combinehiveinputformat(对于大小<hdfs block size的大量文件,通常可以接受)。
我希望有人能告诉我hiveinputformat和combinehiveinputformat如何计算分割大小,因为数据文件大小从小(小于一个块)到大(跨越多个块)。
我想指定为扫描表而生成的Map器任务的数量。对于mr引擎,这可以通过设置mapred.min.split.size和mapred.max.split.size属性来控制。我需要知道是否有类似的配置为tez引擎。
此外,属性tez.grouping.max-size、tez.grouping.min-size和tez.grouping.split-waves的值分别设置为1gb、16mb和1.7。但是,我注意到创建的输入拆分不符合这些属性。
我有两个3mb大小的文件放在一张table上。根据设置的属性,只应生成1个Map器任务,而应生成2个Map器任务。
hive/tez中是否有其他属性需要设置以启用输入拆分分组?
我将非常感谢任何意见。
谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题