典型的hadoop远程作业提交设置

lrpiutwd  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(313)

所以我对hadoop还是有点陌生,目前正在amazonaws上建立一个小的测试集群。所以我的问题是关于集群结构的一些技巧,这样就可以从远程机器提交作业。
目前我有5台机器。4基本上是hadoop集群,包含namenodes、yarn等。一台机器用作管理器机器(cloudera manager)。我将描述我的思维过程中的设置,如果有人能在我不清楚的点,这将是伟大的。
我在想一个小集群的最佳设置是什么。所以我决定只公开一台管理器机器,并可能使用它来提交所有作业。其他机器将看到对方等,但不能从外部世界访问。我对如何做到这一点有概念上的想法,但我不知道如何正确地去做这个虽然,如果有人能给我指出正确的方向,这将是伟大的。
另一个要点是,我希望能够从客户机(可能是windows)通过公开的机器向集群提交作业。我不太清楚这个设置以及。我是否需要在机器上安装hadoop才能使用正常的hadoop命令,以及从eclipse或类似的东西编写/提交作业。
总之,我的问题是,
对于一个小的测试集群来说,这是一个正常的设置吗
如何在没有hadoop节点的情况下使用一台公开的机器将作业提交/路由到集群。
如何设置客户机以将作业提交到远程群集,以及如何在windows上执行此操作的示例。另外,如果有任何理由不使用windows作为此安装中的客户端计算机。
谢谢,如果您能给我任何建议或帮助,我将不胜感激。

pdsfdshx

pdsfdshx1#

既然没有人回答,我就试着回答。

1. 提交应用程序的rest api:

资源1(群集应用程序api(提交应用程序)):https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/resourcemanagerrest.html#cluster_applications_apisubmit_application
资源2:https://docs.hortonworks.com/hdpdocuments/hdp2/hdp-2.6.5/bk_yarn-resource-management/content/ch_yarn_rest_apis.html
资源3:https://hadoop-forum.org/forum/general-hadoop-discussion/miscellaneous/2136-how-can-i-run-mapreduce-job-by-rest-api
资源4:通过RESTAPI运行mapreduce作业

2. 正在从提交hadoop作业  客户机

资源1:https://pravinchavan.wordpress.com/2013/06/18/submitting-hadoop-job-from-client-machine/

3. 向远程hadoop集群发送程序

可以将程序发送到远程hadoop集群来运行它。在运行实际作业之前,只需确保已正确设置资源管理器地址、fs.defaultfs、库文件和mapreduce.framework.name。资源1:(如何用java中的yarn api提交mapreduce作业)

相关问题