大查询还是变异Dataframe？

nsc4cvqm 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(236)

我正在使用sparksession连接到配置单元数据库。我在试着决定什么是最好的方法来丰富数据。我使用的是sparksql，但我已经厌倦了使用它。
sparksql只是调用hivesql吗？那么，这是否意味着使用spark不会提高性能？
如果不是，我是应该创建一个大型sql查询来spark，还是应该获取一个不想将其转换为Dataframe的表，并使用sparks函数对其进行操作？

Hive apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/44804445/large-query-or-mutate-dataframe

1条答案

按热度按时间

hwazgwia1#

不，spark将从hive读取数据，但使用自己的执行引擎。性能和能力会有所不同。这在多大程度上取决于您用于配置单元的执行引擎(m/r、tez、spark、llap？）
这是一样的。我会坚持使用sql查询，并在一开始对hive进行a-b-test，但是sql是出了名的难以维护，从长远来看，使用spark的datasetapi的scala/python代码对用户更友好。

赞(0）回复(0）举报 2021-06-26

我来回答

大查询还是变异Dataframe？

1条答案

相关问题

热门标签

最新问答