spark.jars不向类路径添加jar

bvjveswy  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(334)

我正在尝试使用“spark.jars”属性在spark作业中添加自定义jar。虽然我可以读取jar添加日志中的信息,但是当我检查添加到类路径的jar时,我没有找到它。
1) Spark罐
2) spark.driver.extra库路径
3) spark.executor.extra库路径
4) 设置jars(seq[string])
但是没有人添加jar,我在hdp中使用spark2.2.0,文件保存在本地。请让我知道我可能做错了什么。
第一个对me.spark.jars有效的选项是添加jar,因为它在spark ui中显示。

pxy2qtax

pxy2qtax1#

查看提交作业的文档,在底部添加额外的非运行时jar
你可以把jar加到 spark.jars 或者在运行时指定它们

./bin/spark-submit \
  --class <main-class> \
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  ... # other options
  <application-jar> \

所以试试看 spark-submit --master yarn --jars the_jar_i_need.jar my_script.py 例如,我有一个pyspark脚本 kafak_consumer.py 那需要一个jar, spark-streaming-kafka-0-8-assembly_2.11-2.1.1.jar 要运行它,命令是

spark-submit --master yarn --jars spark-streaming-kafka-0-8-assembly_2.11-2.1.1.jar kafka_consumer.py
7gyucuyw

7gyucuyw2#

如果您需要一个可供执行者使用的外部jar,您可以尝试 spark.executor.extraClassPath . 根据文件,这不必要,但过去对我有帮助
额外的类路径条目,以前置到执行器的类路径。这主要是为了向后兼容旧版本的spark。用户通常不需要设置此选项。
文档:https://spark.apache.org/docs/latest/configuration.html

相关问题