现状:我有一个电子病历集群。在主节点上,我有一个python程序,它执行子进程调用并执行包含以下行的脚本。子进程触发mr作业,并将输出写入hdfs,稍后使用。
/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt
我想做什么?现在,我想把这部分解耦。我想在笔记本电脑或单独的ec2示例上本地运行python程序,但仍然将mr作业提交给emr集群。假设我在emr主节点上有test.jar。
如何远程提交?另外,我使用的是python,假设jar是一个黑盒子。有什么包我可以用来提交工作?我必须提到像主节点的ip才能运行这个吗?
1条答案
按热度按时间7y4bm7vi1#
基本上,一旦在远程机器上设置了hadoop conf,就可以远程运行hadoop或spark。
我在这里附上一个spark的链接,提交aws的远程文档,但是对于先生来说也是一样的,我的意思是一旦你完成了这个步骤hadoop jar就可以工作了。
https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/