以下是我在系统中安装的Spark&Hive版本
Spark:spark-1.4.0-bin-hadoop2.6
Hive:e1d1e
我已将配置单元安装配置为使用MySQL作为Metastore。目标是访问MySQL元存储并在spark-shell
内执行HiveQL查询(使用HiveContext
)
到目前为止,我能够通过访问Derby元存储来执行HiveQL查询(如这里所述,相信Spark-1.4与Hive 0.13.1捆绑在一起,后者又将内部Derby数据库用作元存储)
然后,我尝试通过设置$SPARK_HOME/conf/spark-defaults.conf
中下面给出的属性(如这里所建议的),将spark-shell
指向我的外部元存储(本例中为MySQL),
spark.sql.hive.metastore.jars /home/mountain/hv/lib:/home/mountain/hp/lib
我还将$HIVE_HOME/conf/hive-site.xml
复制到$SPARK_HOME/conf
中。但当我启动spark-shell
时,出现以下异常
mountain@mountain:~/del$ spark-shell
Spark context available as sc.
java.lang.ClassNotFoundException: java.lang.NoClassDefFoundError:
org/apache/hadoop/hive/ql/session/SessionState when creating Hive client
using classpath: file:/home/mountain/hv/lib/, file:/home/mountain/hp/lib/
Please make sure that jars for your version of hive and hadoop are
included in the paths passed to spark.sql.hive.metastore.jars.
我是否遗漏了什么(或)没有正确设置属性spark.sql.hive.metastore.jars
?
2条答案
按热度按时间bmvo0sr51#
注:在Linux Mint中已验证
如果要在Spark默认设置中设置属性。conf,spark只有在您使用spark提交作业时才会使用这些设置。
文件:spark-defaults.conf
在终端运行您的作业,说wordcount.py
如果要在开发模式下从IDE运行作业,则应使用config()方法。这里我们将设置Kafka jar包
xjreopfe2#
配置单元站点的损坏版本。xml将导致此问题…请复制正确的hive-site.xml