如果不使用map reduce,Hive3上的Hiveorc acid需要tez吗?

igetnqfo  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(421)

我的理解是,在hive3中,使用merge的hiveorc acid表至少需要tez作为底层执行引擎,如果没有使用map reduce,或者使用用于hive的spark引擎。事实上,我不相信Hive合并,更新,删除工作与Spark引擎。
但从文件和各种更新,我不能确认这些,因此这篇文章。似乎很难就这个主题写一篇连贯的散文,而我远离了一团。
以及https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-version-release 声明完整的事务功能我无法遵循,因为我不知道spark可以更新、删除hive orc acid(尚未):
ApacheSpark
apachespark通过hivewarehouse连接器获得可更新的表和acid事务。配置单元仓库连接器允许您将配置单元事务表注册为spark中的外部表,以访问完整的事务功能。以前的版本只支持表分区操作。hive warehouse connector还支持流式Dataframe,用于从spark向事务和流式hive表进行流式读写。
spark执行器可以直接连接到hive llap守护进程,以事务方式检索和更新数据,从而允许hive保持对数据的控制。
hdinsight 4.0上的apache spark支持以下场景:
在用于报告的相同事务表上运行机器学习模型训练。使用acid事务将sparkml中的列安全地添加到配置单元表中。在配置单元流表的更改源上运行spark流作业。直接从spark结构化流作业创建orc文件。您不再需要担心意外地试图直接从spark访问配置单元事务表,从而导致不一致的结果、重复的数据或数据损坏。在hdinsight 4.0中,spark表和hive表保存在单独的元存储中。使用配置单元数据仓库连接器将配置单元事务表显式注册为spark外部表。

cigdeys3

cigdeys31#

上面粗体斜体的陈述是不正确的。
https://issues.apache.org/jira/browse/spark-15348 明确指出,Spark不允许Hive或酸处理。
mr正在各种云平台上消失,而tez现在是默认引擎,所以sqoop和hive orc acid使用它,因此至少需要tez。
注:我只问了这个问题,因为在我上一次的作业中,这个讨论是从“楼上”的人那里提出来的。

相关问题