sparksql vs-hive-on-spark-difference及其利弊？

x759pob2 于 2021-06-26 发布在 Hive

关注(0)|答案(3)|浏览(338)

sparksqlcli在内部使用hiveql，在spark上的配置单元（hive-7292）中，配置单元使用spark作为后端引擎。有没有人能说得更清楚一点，这两种情况到底有什么不同，以及这两种方法的利弊？

hadoop Hive apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/50902703/hivecontext-vs-spark-engine-in-hive

3条答案

按热度按时间

uubf1zoe1#

以下是我在Hive官方网站上找到的相关答案：
1.3 比较具有鲨鱼和 Spark sql语句那里是二相关项目在里面这个 Spark 生态系统那个提供 Hive 秋林支持在 Spark：鲨鱼和 Spark sql。 ●这个鲨鱼项目翻译查询计划生成通过 Hive 进入之内它的拥有代表和执行他们结束 Spark。 ●Spark sql语句是一特征在里面 Spark。它使用 Hive 分析器作为这个前端到提供 Hive 秋林支持。 Spark 应用开发商可以容易地表达他们的数据处理逻辑在里面 sql语言，作为好作为这个其他 Spark 操作员，在里面他们的代码。 Spark sql语句支架一不同的使用案例比 Hive。
相比具有鲨鱼和 Spark sql语言，我们的方法通过设计支架全部的现有的 Hive 特征，包括 Hive 秋林 (和任何未来扩展），和 Hive 集成具有授权，监测，审计，和其他操作的工具。
3. Hive-水平设计作为注意在里面这个简介，这项目拿一不同的方法从那个属于鲨鱼或 Spark sql语句在里面这个感觉那个我们是不去到实施 sql语句语义学使用 Spark 原语。在这个相反，我们将实施它使用 MapReduce 原语。这个只有新的事情在这里是那个这些 MapReduce 原语将是执行在里面 Spark。在里面事实上，只有一很少的属于 Spark 原语将是习惯于在里面这设计。
这个方法属于执行 Hive MapReduce 原语在 Spark 那个是不同的从什么鲨鱼或 Spark sql语句做有这个下列的直接的优势： 1.Spark 用户将自动得到这个整体设置属于 Hive 富有的特征，包括任何新的特征那个 Hive 可以介绍在里面这个未来。 2.这个方法避免或减少这个必然性属于任何定制工作在里面 Hive Spark 执行引擎。
3.信息技术将也限制这个范围属于这个项目和减少长期维修通过保持 Hive-在-Spark 全等的到 Hive MapReduce 和泰兹。

赞(0）回复(0）举报 2021-06-26

0sgqnhkj2#

当sparksql使用配置单元时
sparksql可以使用hivemetastore来获取hdfs中存储的数据的元数据。这种元数据使sparksql能够更好地优化它执行的查询。这里是查询处理器。
当hive使用spark时，请参见jira条目：hive-7292
这里的数据是通过spark访问的。hive是查询处理器。所以我们可以充分利用Spark芯的所有设计特点。但这是hive的一项重大改进，截至2016年2月2日仍在“进行中”。
还有第三种方法可以使用sparksql处理数据
使用sparksql而不使用配置单元。在这里，sparksql不能从配置单元元存储访问元数据。而且查询运行速度较慢。我做了一些性能测试，比较了选项1和3。结果就在这里。

赞(0）回复(0）举报 2021-06-26

mefy6pfw3#

sparksql vs spark api您可以简单地想象自己身处rdbms世界：
sparksql是纯sql，sparkapi是编写存储过程的语言
spark上的hive类似于sparksql，它是一个纯sql接口，使用spark作为执行引擎，sparksql使用hive的语法，所以作为一种语言，我想说它们几乎是一样的。
但是spark上的hive对hive特性有更好的支持，特别是hiveserver2和安全特性，sparksql中的hive特性确实有缺陷，sparksql中有一个hiveserver2 impl，但是在最新版本（1.6.x）中，sparksql中的hiveserver2不再使用hivevar和hiveconf参数，通过jdbc登录的用户名也不起作用。。。
看到了吗https://issues.apache.org/jira/browse/spark-13983
我相信spark项目中的Hive支持是非常低优先级的东西。。。
遗憾的是，spark集成上的hive并不是那么容易，有很多依赖冲突。。。例如https://issues.apache.org/jira/browse/hive-13301
而且，当我尝试使用spark集成的hive时，出于调试目的，我总是这样启动hive cli：

export HADOOP_USER_CLASSPATH_FIRST=true
bin/hive --hiveconf hive.root.logger=DEBUG,console

我们的要求是以一种安全的方式（通过身份验证和授权）将spark与hiveserver2结合使用，目前sparksql本身无法提供这一点，我们在spark上使用ranger/sentry+hive。
希望这能帮助你更好的知道你应该往哪个方向走。

赞(0）回复(0）举报 2021-06-26

我来回答

sparksql vs-hive-on-spark-difference及其利弊？

3条答案

相关问题

热门标签

最新问答