apache spark对apache spark 2

neskvpey  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(519)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

四年前关门了。
改进这个问题
与apachespark相比,apachespark2有哪些改进?
从建筑学Angular
从应用的Angular
或更多

alen0pnh

alen0pnh1#

在架构方面没有太大的区别,因为基本上仍然是dag和rdd,这是它最重要的部分!
尽管spark2.0优化得多,而且有datasetapi,这给开发人员带来了更强大的功能。因此,我想说的架构是一样的,它只是Spark2.0提供了许多优化和丰富的api集!
以下是apache spark 2.0提供的主要功能:
我能看到的最大变化是数据集和Dataframeapi将被合并。
最新和最伟大的Spark将是一个整体很多效率相比,前辈。Spark2.0将重点关注Parquet和缓存的结合,以实现更好的吞吐量。
结构化流媒体是另一件大事!
这将是第一个将重点放在etl上的版本。后续版本将为etl添加更多的操作符和库
欲了解更多信息,请点击此处:https://www.quora.com/what-are-special-features-and-advantages-of-apache-spark-2-0-over-earlier-versions

0pizxfdo

0pizxfdo2#

apachespark2.0.0api与1.x基本相似,spark2.0.0确实有突破api的变化
ApacheSpark2.0.0是2.x系列的第一个版本。主要的更新包括api可用性、sql2003支持、性能改进、结构化流、rudf支持以及操作改进。
spark 2中的新功能:
我能看到的最大变化是数据集和Dataframeapi将被合并。
最新和最伟大的Spark将是一个整体很多效率相比,前辈。Spark2.0将重点关注Parquet和缓存的结合,以实现更好的吞吐量。
结构化流媒体是另一件大事!
这将是第一个将重点放在etl上的版本。后续版本将为etl添加更多的操作符和库
您可以浏览spark release 2.0.0,其中解释了以下几点的更新:
api稳定性
核心和spark sql
mllib公司
斯巴克
流动
依赖关系、打包和操作
删除、行为更改和弃用
已知问题

相关问题