有谁能提供一些指导,为什么我们要使用hadoop而现在spark是可用的?我们都知道spark是为了解决hadoop的局限性而创建的?谢谢您。
wyyhbhjk1#
hadoop有几个组件,包括分布式文件系统、hdfs、并行数据处理框架mapreduce和宽列存储hbase。虽然spark可以看作是mapreduce的下一代版本,带有通用数据流(dags),但spark并不能取代hdfs或hbase。相反,它可以使用来自hdfs和hbase的数据作为输入,并将数据写回它们。我希望这有帮助!
atmip9wb2#
spark和hadoop都基于mapreduce的概念。然而,spark由于其内存计算特性,速度更快。spark发展成sparksql、mlib、streaming,但是hadoop有其他独立的不相关组件来支持这些特性,例如pig、hive。所有的Spark组件都放在一个组件下,这对它起到了很大的推动作用。现在由于hadoop没有spark那么抽象,所以它在定制方面提供了更多的独立性,特别是在map和reduce阶段。不过,在spark的情况下,这种定制是抽象的\
2条答案
按热度按时间wyyhbhjk1#
hadoop有几个组件,包括分布式文件系统、hdfs、并行数据处理框架mapreduce和宽列存储hbase。
虽然spark可以看作是mapreduce的下一代版本,带有通用数据流(dags),但spark并不能取代hdfs或hbase。相反,它可以使用来自hdfs和hbase的数据作为输入,并将数据写回它们。
我希望这有帮助!
atmip9wb2#
spark和hadoop都基于mapreduce的概念。然而,spark由于其内存计算特性,速度更快。spark发展成sparksql、mlib、streaming,但是hadoop有其他独立的不相关组件来支持这些特性,例如pig、hive。所有的Spark组件都放在一个组件下,这对它起到了很大的推动作用。现在由于hadoop没有spark那么抽象,所以它在定制方面提供了更多的独立性,特别是在map和reduce阶段。不过,在spark的情况下,这种定制是抽象的\