当文件大于块大小时，如何减少配置单元中Map器的数量？

u59ebvdq 于 2021-06-26 发布在 Hive

关注(0)|答案(4)|浏览(388)

伙计们，我在hive中有一个表，它有720多个分区，每个分区有400多个文件，文件的平均大小是1g。
现在我执行以下sql:insert overwrite table test\u select*from default. a where a.p\u hour='2017042400'；
这个分区（p\u hour='2017042400'）有409个文件。当我提交这个sql时，我得到了以下输出
信息：由于没有reduce运算符，reduce任务数设置为0信息：reduce任务数splits:409
信息：提交作业令牌：作业\u 148299644961 \u 9384015
我用google搜索了很多doc来寻找如何减少mapper的数量，很多doc解决了文件小的时候这个问题。我试过下面的直线设置，但没有工作

Hive Mapper

来源：https://stackoverflow.com/questions/43673843/how-to-decrease-the-number-of-mapper-in-hive-while-the-file-is-bigger-than-block

4条答案

按热度按时间

pdsfdshx1#

--------第一次

set mapred.min.split.size =5000000000;
set mapred.max.split.size =10000000000;
set mapred.min.split.size.per.node=5000000000;
set mapred.min.split.size.per.rack=5000000000;

赞(0）回复(0）举报 2021-06-26

q1qsirdb2#

除了你帖子里的设置

set hive.hadoop.supports.splittable.combineinputformat=true;

hive.hadoop.supports.splittable.combineinputformat
-默认值：false
-添加到：hive 0.6.0
是否合并小的输入文件以便生成更少的Map器。

赞(0）回复(0）举报 2021-06-26

qxsslcnc3#

mrv2使用 CombineInputFormat ，而tez使用分组拆分来确定Map器。如果你的执行引擎 mr 您希望减少Map绘制者使用：

mapreduce.input.fileinputformat.split.maxsize=xxxxx

如果 maxSplitSize 则将同一节点上的块合并为单个拆分。剩余的块然后与同一机架中的其他块合并。如果 maxSplitSize 如果未指定，则来自同一机架的块以单个拆分方式组合；未尝试创建节点本地拆分。如果 maxSplitSize 等于块大小，则该类类似于hadoop中的默认拆分行为
如果您的执行引擎运行正常，此链接有助于控制配置单元中的Map器 mr 如果你的执行引擎 tez 您可以控制Map程序，然后使用：

set tez.grouping.max-size = XXXXXX;

这里是一个很好的参考资料，为Hive的并行性 tez 执行引擎，

赞(0）回复(0）举报 2021-06-26

iszxjhcz4#

-------第二次

set mapreduce.input.fileinputformat.split.minsize =5000000000;
set mapreduce.input.fileinputformat.split.maxsize=10000000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=5000000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=5000000000;

我的hadoop版本是2016年7月11日由root编译的hadoop 2.7.2 10:58:45 hive版本连接到：apache hive（版本1.3.0）驱动程序：hive jdbc（版本1.3.0）

赞(0）回复(0）举报 2021-06-26

我来回答

当文件大于块大小时，如何减少配置单元中Map器的数量？

4条答案

相关问题

热门标签

最新问答