jdbcSpark连接

f8rj6qna 于 2021-06-29 发布在 Hive

关注(0)|答案(1)|浏览(180)

我正在研究从r/python建立一个jdbcspark连接。我知道 pyspark 以及 SparkR 两者都是可用的，但它们似乎更适合于交互式分析，特别是因为它们为用户保留了集群资源。我正在考虑一些更类似于tableau-odbc-spark连接的东西——一些更轻量级的东西（据我所知）来支持简单的随机访问。虽然这似乎是可能的，而且有一些文档，但（对我来说）并不清楚jdbc驱动程序的要求是什么。
既然hive和spark sql通过thrift看起来紧密相连，我是否应该像我一样使用org.apache.hive.jdbc.hivedriver来建立hive连接？我是否应该将配置单元连接所需的hadoop公共依赖项（使用hiveserver2端口）换成某些特定于spark的依赖项（使用hive.server2.thrift.http.port时）？
另外，由于大多数连接功能似乎都利用了配置单元，那么导致sparksql被用作查询引擎而不是配置单元的关键是什么？

Hive python jdbc apache-spark-sql r

来源：https://stackoverflow.com/questions/37041177/jdbc-spark-connection