如何在amazon emr集群上远程提交hadoop mr作业

2lpgd968 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(431)

现状：我有一个电子病历集群。在主节点上，我有一个python程序，它执行子进程调用并执行包含以下行的脚本。子进程触发mr作业，并将输出写入hdfs，稍后使用。

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

我想做什么？现在，我想把这部分解耦。我想在笔记本电脑或单独的ec2示例上本地运行python程序，但仍然将mr作业提交给emr集群。假设我在emr主节点上有test.jar。
如何远程提交？另外，我使用的是python，假设jar是一个黑盒子。有什么包我可以用来提交工作？我必须提到像主节点的ip才能运行这个吗？

hadoop mapreduce python amazon-emr amazon-web-services

来源：https://stackoverflow.com/questions/53642809/how-to-submit-hadoop-mr-job-remotely-on-amazon-emr-cluster

1条答案

按热度按时间

7y4bm7vi1#

基本上，一旦在远程机器上设置了hadoop conf，就可以远程运行hadoop或spark。
我在这里附上一个spark的链接，提交aws的远程文档，但是对于先生来说也是一样的，我的意思是一旦你完成了这个步骤hadoop jar就可以工作了。
https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/

赞(0）回复(0）举报 2021-06-01

我来回答

如何在amazon emr集群上远程提交hadoop mr作业

1条答案

相关问题

热门标签

最新问答