apachespark能在没有hadoop的情况下运行吗?

sbtkgmzw  于 2021-06-03  发布在  Hadoop
关注(0)|答案(10)|浏览(372)

spark和hadoop之间有依赖关系吗?
如果没有,当我在没有hadoop的情况下运行spark时,有什么特性我会错过吗?

4urapxun

4urapxun1#

是的,当然。spark是一个独立的计算框架。hadoop是一个具有mapreduce计算框架的分布式存储系统(hdfs)。spark可以从hdfs以及任何其他数据源(如传统数据库(jdbc)、kafka甚至本地磁盘)获取数据。

7vux5j2d

7vux5j2d2#

不,它需要完整的hadoop安装才能开始工作-https://issues.apache.org/jira/browse/spark-10944

mwecs4sa

mwecs4sa3#

是的,你可以不用hadoop安装spark。这将是一个小技巧,你可以参考arnonlink使用parquet来配置s3上的数据存储。http://arnon.me/2015/08/spark-parquet-s3/
spark只是做处理,它使用动态内存来执行任务,但是要存储数据需要一些数据存储系统。hadoop在spark中扮演了一个角色,它为spark提供了存储空间。将hadoop与spark结合使用的另一个原因是,它们是开源的,与其他数据存储系统相比,两者可以轻松地集成在一起。对于像s3这样的其他存储,您应该很难像上面链接中提到的那样配置它。
但是hadoop也有它的处理单元mapreduce。
想知道两者的区别吗?
检查本文:https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83
我想这篇文章会帮助你理解
使用什么,
何时使用和
如何使用!!!

b09cbbtk

b09cbbtk4#

默认情况下,spark没有存储机制。
为了存储数据,需要快速、可扩展的文件系统。您可以使用s3或hdfs或任何其他文件系统。由于成本低,hadoop是一个经济的选择。
此外,如果你使用超光速粒子,它将提高性能与hadoop。强烈建议使用hadoop进行apachespark处理。

a2mppw5e

a2mppw5e5#

是的,spark可以在安装hadoop的情况下运行,也可以不安装hadoop来查看更多细节-https://spark.apache.org/docs/latest/

hfsqlsce

hfsqlsce6#

根据spark文档,spark可以在没有hadoop的情况下运行。
您可以作为独立模式运行它,而不需要任何资源管理器。
但是,如果您想在多节点设置中运行,则需要一个资源管理器(如yarn或mesos)和一个分布式文件系统(如hdfs、s3等)。

cpjpxq1n

cpjpxq1n7#

spark可以在没有hadoop的情况下运行,但是它的一些功能依赖于hadoop的代码(例如处理Parquet文件)。我们在mesos和s3上运行spark,虽然设置起来有点棘手,但一旦完成,它的工作就非常好了(您可以在这里阅读正确设置它所需的内容摘要)。
(编辑)注意:由于版本2.3.0,spark还添加了对kubernetes的本机支持

cbjzeqam

cbjzeqam8#

spark是一个内存分布式计算引擎。
hadoop是分布式存储(hdfs)和分布式处理(yarn)的框架。
spark可以使用或不使用hadoop组件(hdfs/yarn)运行

分布式存储:

由于spark没有自己的分布式存储系统,因此它必须依赖其中一个存储系统来进行分布式计算。
s3–非紧急批处理作业。当数据局部性不重要时,s3适合非常特定的用例。
cassandra–非常适合流式数据分析和批处理作业。
hdfs–非常适合批量作业,而不影响数据位置。

分布式处理:

您可以在三种不同的模式下运行spark:独立模式、Yarn模式和mesos模式
有关分布式存储和分布式处理的详细说明,请看下面的问题。
我应该为spark选择哪种群集类型?

qvsjd97n

qvsjd97n9#

是的,spark可以在没有hadoop的情况下运行。您可以在本地计算机上安装spark而不必使用hadoop。但是spark lib附带了pre-haddop库,即在本地机器上安装时使用的库。

htzpubme

htzpubme10#

是的,spark可以在没有hadoop的情况下运行。所有核心spark特性都将继续工作,但是您将错过一些事情,例如通过hdfs将所有文件(代码和数据)轻松分发到集群中的所有节点等。

相关问题