关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
三年前关门了。
改进这个问题
我已经在风暴和Spark工作,但桑扎是相当新的。
我不明白为什么samza是在storm已经在那里进行实时处理的时候引入的。spark提供了内存中近乎实时的处理,并有其他非常有用的组件,如graphx和mllib。
samza带来了哪些改进?还有哪些改进是可能的?
关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
三年前关门了。
改进这个问题
我已经在风暴和Spark工作,但桑扎是相当新的。
我不明白为什么samza是在storm已经在那里进行实时处理的时候引入的。spark提供了内存中近乎实时的处理,并有其他非常有用的组件,如graphx和mllib。
samza带来了哪些改进?还有哪些改进是可能的?
1条答案
按热度按时间63lcw9qa1#
这是一个很好的差异和利弊总结。
我只想补充一点,samza实际上并不是什么新东西,它带来了某种简单性,因为它坚持使用kafka作为它的后端,而其他人则以简单性为代价试图变得更通用。samza是由创建Kafka的同一个人开创的,他们也是kappa架构背后的同一个人——主要是linkedin的杰伊·克雷普斯(jay kreps)。那很酷。
此外,samza的实时流、spark流中的微批量(与spark不完全相同)以及storm中的喷孔和螺栓与元组之间的编程模型完全不同。
这些都不是“更好的”,这完全取决于你的用例、你的团队的实力、API如何与你的心智模型相匹配、支持的质量等等。
你还忘了Apache·Flink和推特的苍鹭,他们之所以这么做是因为风暴开始让他们失望。再说一次,很少有人需要在twitter的规模上运作。