配置单元中的tez执行引擎与mapreduce执行引擎

pw9qyyiw 于 2021-06-28 发布在 Hive

关注(0)|答案(3)|浏览(601)

在hive中，tez引擎和map reduce引擎有什么区别？在哪个过程中使用哪个引擎更好（例如：连接、聚合？）

Hive mapreduce amazon-web-services bigdata tez

来源：https://stackoverflow.com/questions/41630987/tez-execution-engine-vs-mapreduce-execution-engine-in-hive

3条答案

按热度按时间

z9zf31ra1#

tez是一个基于dag的系统，它知道所有的操作é在开始执行之前优化这些操作。
mapreduce模型简单地说，任何计算都可以通过两种计算步骤来执行：map步骤和reduce步骤。一对map和reduce对数据进行一级聚合。复杂的计算通常需要多个这样的步骤。
tez通常是在maprreduce下运行的，所以它只是一个mapreduce，优化的步骤更少、更紧凑。

赞(0）回复(0）举报 2021-06-28

mzillmmw2#

tez是一种dag（有向无环图）结构。典型的map reduce作业包含以下步骤：
从文件中读取数据-->一次磁盘访问
运行Map程序
写入Map输出-->第二次磁盘访问
运行shuffle和sort-->读取Map输出，第三次磁盘访问
写入无序排列和排序-->为还原程序写入排序数据-->第四次磁盘访问
运行减速机，读取排序数据-->第五个磁盘输出
写减速机输出-->第六次磁盘访问
tez的工作原理与spark非常相似（tez是由hortonworks在spark之前创建的）：
执行计划，但不需要从磁盘读取数据。
一旦准备好进行一些计算（类似于spark中的操作），就从磁盘获取数据并执行所有步骤并生成输出。
只有一读一写。
通过不多次访问磁盘，提高了效率。中间结果存储在内存中（不写入磁盘）