apachespark结构化流媒体与apacheflink:有什么区别?

gzszwxb4  于 2021-06-25  发布在  Flink
关注(0)|答案(1)|浏览(346)

我们讨论了以下问题:
apachespark和apacheflink有什么区别[[关闭]
在apachespark和apacheflink中,“流”是什么意思?
在实践中(而不是理论上),小批量和实时流媒体有什么区别?
但是 Spark Structured Streaming 在spark2.2中添加,它为流媒体带来了很多变化,非常出色。
我们能说吗 Spark Strutured Streaming 是流式处理,还是仍然是批处理?
那么,这两者之间的最大区别是什么呢 Apache Flink 以及 Apache Spark Structured Streaming ?

pod7payv

pod7payv1#

目前:
spark结构化流媒体仍然在后台使用微博客。但是,它支持事件时间处理,延迟很低(但没有flink那么低),支持在一个api中对流进行sql和类型安全查询;没有区别,每个数据集都可以用sql或typesafe操作符查询。它有一个端到端的语义(至少他们这么说;)。吞吐量比flink中的要好(有一些基准测试的结果不同,但是看看databricks关于结果的文章)。
在不久的将来:
spark持续处理模式正在进行中,它将提供spark约1ms的延迟,与flink的延迟相当。然而,正如我所说,它仍在进行中。api已经为非批处理作业做好了准备,因此它比以前的spark流更容易实现。
主要区别:
spark现在依赖于微批处理,而flink有预先安排的操作符。这意味着,flink的延迟较低,但spark community采用的是连续处理模式,其工作原理与接收器类似(据我所知)。

相关问题