在运行tez引擎的hive中管理输入分割大小

f4t66c6m 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(340)

我想更好地了解如何在tez引擎中计算输入分割。
我知道hive.input.format属性可以设置为hiveinputformat（默认）或combinehiveinputformat（对于大小<hdfs block size的大量文件，通常可以接受）。
我希望有人能告诉我hiveinputformat和combinehiveinputformat如何计算分割大小，因为数据文件大小从小（小于一个块）到大（跨越多个块）。
我想指定为扫描表而生成的Map器任务的数量。对于mr引擎，这可以通过设置mapred.min.split.size和mapred.max.split.size属性来控制。我需要知道是否有类似的配置为tez引擎。
此外，属性tez.grouping.max-size、tez.grouping.min-size和tez.grouping.split-waves的值分别设置为1gb、16mb和1.7。但是，我注意到创建的输入拆分不符合这些属性。
我有两个3mb大小的文件放在一张table上。根据设置的属性，只应生成1个Map器任务，而应生成2个Map器任务。
hive/tez中是否有其他属性需要设置以启用输入拆分分组？
我将非常感谢任何意见。
谢谢！

hadoop Hive mapreduce split apache-tez

来源：https://stackoverflow.com/questions/36761464/managing-input-split-sizes-in-hive-running-the-tez-engine

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在运行tez引擎的hive中管理输入分割大小

暂无答案！

相关问题

热门标签

最新问答