我是一个新的集群计算,我试图建立一个最小的2节点集群在Spark。我仍然有点困惑的是:我必须先设置一个完整的hadoop安装吗?spark是否附带了hadoop版本?
我找到的关于spark的东西并没有说得这么清楚。我理解spark是hadoop的扩展,而不是替代它,但是如果它需要独立运行的hadoop系统,我并不清楚。
我需要一个hdfs,仅仅使用hadoop的文件系统部分就足够了吗?
有人能告诉我这件很明显的事吗?
我是一个新的集群计算,我试图建立一个最小的2节点集群在Spark。我仍然有点困惑的是:我必须先设置一个完整的hadoop安装吗?spark是否附带了hadoop版本?
我找到的关于spark的东西并没有说得这么清楚。我理解spark是hadoop的扩展,而不是替代它,但是如果它需要独立运行的hadoop系统,我并不清楚。
我需要一个hdfs,仅仅使用hadoop的文件系统部分就足够了吗?
有人能告诉我这件很明显的事吗?
1条答案
按热度按时间uubf1zoe1#
apachespark独立于hadoop。spark允许您使用不同的数据源(包括hdfs),并且能够在独立集群中运行,或者使用现有的资源管理框架(例如yarn、mesos)。
因此,如果您只对spark感兴趣,则无需安装hadoop。