jdbcSpark连接

f8rj6qna  于 2021-06-29  发布在  Hive
关注(0)|答案(1)|浏览(169)

我正在研究从r/python建立一个jdbcspark连接。我知道 pyspark 以及 SparkR 两者都是可用的,但它们似乎更适合于交互式分析,特别是因为它们为用户保留了集群资源。我正在考虑一些更类似于tableau-odbc-spark连接的东西——一些更轻量级的东西(据我所知)来支持简单的随机访问。虽然这似乎是可能的,而且有一些文档,但(对我来说)并不清楚jdbc驱动程序的要求是什么。
既然hive和spark sql通过thrift看起来紧密相连,我是否应该像我一样使用org.apache.hive.jdbc.hivedriver来建立hive连接?我是否应该将配置单元连接所需的hadoop公共依赖项(使用hiveserver2端口)换成某些特定于spark的依赖项(使用hive.server2.thrift.http.port时)?
另外,由于大多数连接功能似乎都利用了配置单元,那么导致sparksql被用作查询引擎而不是配置单元的关键是什么?

rbpvctlc

rbpvctlc1#

结果发现,我需要使用的url与ambari中列出的配置单元数据库主机url不匹配。我在一个例子中找到了正确的url来说明如何连接(特别是连接到我的集群)。给定正确的url,我可以使用hivedriver毫无问题地建立连接。

相关问题