我在emr 5.14群集上通过oozie工作流运行spark操作时遇到以下错误:
pyspark.sql.utils.illegalargumentexception:u“示例化'org.apache.spark.sql.hive.hiveexternalcatalog'时出错”我的pyspark脚本作为普通spark作业执行时运行良好,但未通过oozie pyspark执行program:-
spark = SparkSession.builder.appName("PysparkTest").config("hive.support.quoted.identifiers", "none").enableHiveSupport().getOrCreate()
sc = SparkContext.getOrCreate();
sqlContext = HiveContext(sc)
sqlContext.sql("show databases").show()
我从链接中引用了workflow.xml和job.properties。
我在同一个目录($spark\u conf\u dir/)下复制了所有与spark和hive相关的配置文件。配置单元还配置为将mysql用于元存储。
如果您能帮助我解决在oozie spark操作中将这个pyspark程序作为jar文件运行时遇到的问题,那就太好了。
1条答案
按热度按时间bksxznpy1#
Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog'
这意味着Catalog
它试图找到的jar不是ooziesharelib spark目录。请将以下属性添加到
job.properties
文件。你能把整个日志都贴出来吗?
如果可能的话,请您在EMR5.29上运行相同的版本,我在5.26和更低版本上运行pyspark时遇到了一些jar问题。