如何编写map-reduce代码从表格中选择*用于左外连接因为Hive需要很长时间。对于1GB的数据,它需要将近10分钟。合路器和洗牌器如何在内部工作?
6ju8rftf1#
1) 您应该开始使用explain或explain extended命令,该命令显示配置单元如何将查询转换为mapreduce作业。hive主要为以下操作启动mapreduce作业-数据过滤、数据聚合(最小值、最大值、平均值)、连接/乘积和表的交集、排序、e.t.c.首先学习如何在mapreduce中实现上述算法/模式。2) 为了更好地理解如何使用mapr连接数据集,我建议您阅读join algorithm using map reduce一书。配置单元遵循相同的模式连接表(数据集)。3) combiner,shuffle和sort阅读了“oreilly hadoop最终指南tom white-第6章”
1条答案
按热度按时间6ju8rftf1#
1) 您应该开始使用explain或explain extended命令,该命令显示配置单元如何将查询转换为mapreduce作业。
hive主要为以下操作启动mapreduce作业-
数据过滤、数据聚合(最小值、最大值、平均值)、连接/乘积和表的交集、排序、e.t.c.首先学习如何在mapreduce中实现上述算法/模式。
2) 为了更好地理解如何使用mapr连接数据集,我建议您阅读join algorithm using map reduce一书。配置单元遵循相同的模式连接表(数据集)。
3) combiner,shuffle和sort阅读了“oreilly hadoop最终指南tom white-第6章”