为什么要使用hadoop为什么要使用spark?

rxztt3cl  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(623)

有谁能提供一些指导,为什么我们要使用hadoop而现在spark是可用的?我们都知道spark是为了解决hadoop的局限性而创建的?
谢谢您。

wyyhbhjk

wyyhbhjk1#

hadoop有几个组件,包括分布式文件系统、hdfs、并行数据处理框架mapreduce和宽列存储hbase。
虽然spark可以看作是mapreduce的下一代版本,带有通用数据流(dags),但spark并不能取代hdfs或hbase。相反,它可以使用来自hdfs和hbase的数据作为输入,并将数据写回它们。
我希望这有帮助!

atmip9wb

atmip9wb2#

spark和hadoop都基于mapreduce的概念。然而,spark由于其内存计算特性,速度更快。spark发展成sparksql、mlib、streaming,但是hadoop有其他独立的不相关组件来支持这些特性,例如pig、hive。所有的Spark组件都放在一个组件下,这对它起到了很大的推动作用。现在由于hadoop没有spark那么抽象,所以它在定制方面提供了更多的独立性,特别是在map和reduce阶段。不过,在spark的情况下,这种定制是抽象的\

相关问题