因此,我使用以下spark submit命令在emr集群上运行spark作业:
spark-submit --master yarn --deploy-mode cluster
--class MyPackage.MyClass
--jars s3://<my_bucket>/dep_1.jar,s3://<my_bucket>/dep_2.jar
--files s3://<my_bucket>/application.properties
s3://<my_bucket>/code.jar
arg1 arg2 arg3
现在,我想要两个lambda函数,它们应该执行以下操作:
lambda1:通过主公共dns连接到emr(类似于:http://ip-xx-x--xx.ec2.internal)并提交上述spark作业。可能还个工号什么的
lambda2:使用jobid(假设它作为参数提供)并检查作业是否正在运行/成功/失败。此功能将被安排在特定时间间隔后运行。
重要提示:简单的解决方法是使用livy提交作业,如本文所述,但我正在寻找一种使用基本hadoop spark submit的方法。
请帮忙。
暂无答案!
目前还没有任何答案,快来回答吧!