hadoop orc表始终只使用一个Map器

pinkon5k  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(298)

在我当前的项目中,我使用的是带有snappy压缩格式的orc文件,我运行的任何查询都只使用一个Map器运行。我尝试配置mapred.max.split.size和mapred.min.split.size,但没有显示Map器数量的任何变化。reducer计数足够好,但由于Map器是单个Map器,是时候运行一个简单的查询了。
从z组x中选择x,max(y);差不多要20分钟才能完成Map绘制。我还应该做些什么来增加Map绘制者的数量。
请不要告诉我如何使用分区或存储桶,因为我已经在表中使用了它们。

2fjabf4q

2fjabf4q1#

尝试玩tblproperty orc.stripe.size。
条带大小的默认值是256MB,从技术上讲,每个条带有一个Map器。随着单个条纹尺寸的减小,可以增加Map器的数量。

相关问题