关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。
三年前关门了。
改进这个问题
随着spark在市场上的增长,我可以看到spark在hadoop上的主要用例,如:
机器学习中的迭代算法
交互式数据挖掘与数据处理
spark是一个与apache hive完全兼容的数据仓库系统,运行速度比hive快100倍。
流处理:实时流中的日志处理和欺诈检测,用于警报、聚合和分析
传感器数据处理:从多个来源获取和连接数据,内存数据集非常有用,因为它们很容易
快速处理。
我的问题是:
spark会在未来几天取代hadoop吗?
hadoop并发工作,而spark并行运行(是真的吗?)
2条答案
按热度按时间a6b3iqyw1#
如今的hadoop是一系列技术的集合,但本质上它是一个分布式文件系统(hdfs)和一个分布式资源管理器(yarn)。spark是一个分布式计算框架,它将取代map/reduce,这是另一个分布式计算框架
曾经是hadoop的同义词
hadoop提供了现成的向后兼容性(在yarn-map/reduce支持框架成为hadoop的资源管理框架之前)
具体来说,spark不会取代hadoop,但可能会取代map/reduce和hadoop,map/reduce和spark都是分布式系统(并行运行)
zu0ti5jz2#
spark与hadoop的不同之处在于,它允许您将数据摄取、处理和实时分析集成到一个工具中。此外,spark map reduce框架不同于标准的hadoop map reduce,因为spark中间的map reduce结果是缓存的,如果需要重用相同的结果(迭代alghoritms、group by等),rdd(对于具有ii容错能力的分布式集合的抽象)可以保存在内存中。
我的回答非常肤浅,并没有完全回答您的问题,但只是指出了一些主要的区别(更现实)spark和databricks的官方网站确实有很好的记录,您的问题已经在那里得到了回答:
https://databricks.com/spark/about
http://spark.apache.org/faq.html