如何为配置单元查询编写mapreduce代码

li9yvcax  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(346)

如何编写map-reduce代码
从表格中选择*
用于左外连接
因为Hive需要很长时间。对于1GB的数据,它需要将近10分钟。
合路器和洗牌器如何在内部工作?

6ju8rftf

6ju8rftf1#

1) 您应该开始使用explain或explain extended命令,该命令显示配置单元如何将查询转换为mapreduce作业。
hive主要为以下操作启动mapreduce作业-
数据过滤、数据聚合(最小值、最大值、平均值)、连接/乘积和表的交集、排序、e.t.c.首先学习如何在mapreduce中实现上述算法/模式。
2) 为了更好地理解如何使用mapr连接数据集,我建议您阅读join algorithm using map reduce一书。配置单元遵循相同的模式连接表(数据集)。
3) combiner,shuffle和sort阅读了“oreilly hadoop最终指南tom white-第6章”

相关问题