我有一个关于spark.yarn.jars属性和spark集群组织的基本问题。
在准备am容器spark.yarn.jars属性时,我看到了几个关于spark2+yarn属性的问题-nullpointerexception-如何处理它?这让我陷入困境。以下是我的设置:
考虑到我在星火纺纱厂工作
我正在提交一些jar以供提交
作业将转到许多要执行的节点
所有节点都有一些位于某处的spark jar,由spark.yarn.jars属性描述
由此我得出结论:
jars是一个服务器端属性,它与提交作业的spark客户端无关。我从来没有把它设置在我的本地Spark形态。对吗?
如果是的话,我会被文件摘录搞糊涂:
要使spark运行时jars可以从yarn端访问,可以指定spark.yarn.archive或spark.yarn.jars。有关详细信息,请参阅spark properties。如果既没有指定spark.yarn.archive也没有指定spark.yarn.jars,spark将创建一个zip文件,其中所有jar都在$spark\u home/jars下,并将其上载到分布式缓存。
所以实际上他们说的是,本地spark客户端将从本地$spark\u home/jars复制jar,并根据我的作业中spark.yarn.jars的本地值将它们上载到集群?这与第1页相矛盾。
真相在哪里?spark客户应该处理spark.warn.jars吗?
暂无答案!
目前还没有任何答案,快来回答吧!