我提交了一个Spark与工作 spark-submit --master yarn --deploy-mode cluster
到aws上的emr群集,从群集外部的节点。
该作业依赖于awssdkfors3。
我明白了 ClassNotFoundException
在 org.apache.hadoop.fs.s3a.S3AFileSystem
,除非我也设置了 yarn.application.classpath
在 yarn-site.xml
,在客户端(我称之为spark submit)。如果我从 yarn-site.xml
在emr集群主节点上,它可以工作。
我不明白的是为什么我需要这样做:如果集群已经配置了这个类路径,为什么我还需要从客户端配置这个属性?尤其是因为所有路径都指向emr集群上的文件夹,而不是客户端。
暂无答案!
目前还没有任何答案,快来回答吧!