我正在尝试使用“spark.jars”属性在spark作业中添加自定义jar。虽然我可以读取jar添加日志中的信息,但是当我检查添加到类路径的jar时,我没有找到它。
1) Spark罐
2) spark.driver.extra库路径
3) spark.executor.extra库路径
4) 设置jars(seq[string])
但是没有人添加jar,我在hdp中使用spark2.2.0,文件保存在本地。请让我知道我可能做错了什么。
第一个对me.spark.jars有效的选项是添加jar,因为它在spark ui中显示。
2条答案
按热度按时间pxy2qtax1#
查看提交作业的文档,在底部添加额外的非运行时jar
你可以把jar加到
spark.jars
或者在运行时指定它们所以试试看
spark-submit --master yarn --jars the_jar_i_need.jar my_script.py
例如,我有一个pyspark脚本kafak_consumer.py
那需要一个jar,spark-streaming-kafka-0-8-assembly_2.11-2.1.1.jar
要运行它,命令是7gyucuyw2#
如果您需要一个可供执行者使用的外部jar,您可以尝试
spark.executor.extraClassPath
. 根据文件,这不必要,但过去对我有帮助额外的类路径条目,以前置到执行器的类路径。这主要是为了向后兼容旧版本的spark。用户通常不需要设置此选项。
文档:https://spark.apache.org/docs/latest/configuration.html