我正在寻找一个关于如何安装现有的虚拟Yarn簇Spark指南。
我有一个由两个节点组成的Yarn簇,运行map reduce作业,效果很好。在日志中查找结果,一切正常。
现在我需要在vagrant文件中添加spark安装命令和配置文件。我找不到好的导游,有人能给我一个好的链接吗?
我用这本指南来画Yarn簇
http://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-节点安装
提前谢谢!
2条答案
按热度按时间3okqufwl1#
我不知道vagrant,但我已经在Hadoop2.6之上安装了spark(在指南中称为post-yarn),我希望这会有所帮助。
在现有hadoop上安装spark非常简单,只需在一台机器上安装即可。为此,您必须从hadoop的官方网站下载为hadoop版本预先构建的版本(我猜您可以使用
without hadoop
但您需要将它指向系统中hadoop二进制文件的方向)。然后解压:现在只需要设置一些环境变量。你的第一个
~/.bashrc
(或~/.zshrc
)你可以设置SPARK_HOME
并将其添加到PATH
如果需要:为了使这些更改生效,您还可以运行:
其次,您需要将spark指向hadoop配置目录。为此,将这两个环境变量设置为
$SPARK_HOME/conf/spark-env.sh
:如果此文件不存在,则可以复制
$SPARK_HOME/conf/spark-env.sh.template
从那里开始。现在要以Yarn模式启动shell,可以运行:
(您不能在中运行shell
cluster
部署模式)tcbh2hod2#
-更新
我忘了提一下,您也可以用这样的配置提交集群作业(谢谢@juliancienfuegos):
这样,您就看不到终端中的输出,并且一旦提交作业(未完成),命令就会退出。
你也可以使用
--deploy-mode client
如果命令被中断(例如,您按Ctrl+C
,或会话结束)