我正在尝试在hadoop集群上安装apachespark集群。我正在寻找这方面最好的练习。我假设spark主机需要安装在hadoop namenode和hadoop datanodes上的spark从机的同一台机器上。另外,我需要在哪里安装scala?请告知。
euoag5mw1#
如果您的hadoop集群正在运行yarn,只需使用yarn模式提交您的应用程序。这将是最简单的方法,除了将apachespark发行版下载到客户机之外,不需要安装任何东西。您可以做的另一件事是将spark程序集部署到hdfs,以便在调用spark submit时可以使用spark.yarn.jar配置,从而在节点上缓存jar。有关所有详细信息,请参见此处:http://spark.apache.org/docs/latest/running-on-yarn.html
1条答案
按热度按时间euoag5mw1#
如果您的hadoop集群正在运行yarn,只需使用yarn模式提交您的应用程序。这将是最简单的方法,除了将apachespark发行版下载到客户机之外,不需要安装任何东西。您可以做的另一件事是将spark程序集部署到hdfs,以便在调用spark submit时可以使用spark.yarn.jar配置,从而在节点上缓存jar。
有关所有详细信息,请参见此处:http://spark.apache.org/docs/latest/running-on-yarn.html