环境:
pyspark安装:我的本地系统,windows10
hortonworks数据平台:使用oracle虚拟机访问hdp并使用hadoop(hdfs、hive)
问题陈述:我已经在本地机器上安装了hortonworks虚拟机。然后,我在本地系统上安装了dbeaver作为客户端数据工作室,并成功地从本地计算机连接到远程配置单元:
然后我也成功地用pyhive连接到hive:
现在我想用hive连接,但是用pyspark,请注意,我再次提到,我的hive放在(hortonworks数据平台)vm上,所以我需要远程连接。
要将pyspark与hive连接,下面是我的脚本:
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Python Spark SQL Hive integration example") \
.config("hive.metastore.uris", "thrift://sandbox-hdp.hortonworks.com:9083") \
.enableHiveSupport() \
.getOrCreate()
spark.sql("show databases").show()
但我得到以下错误,我无法连接到与PyparkHive:
analysisexception:org.apache.hadoop.hive.ql.metadata.hiveexception:java.lang.runtimeexception:无法示例化org.apache.hadoop.hive.ql.metadata.sessionhivemetastoreclient;
如果你完全理解我的问题陈述,你能帮我吗?
暂无答案!
目前还没有任何答案,快来回答吧!