oozie与spark的等价关系是什么?

x0fgdtte  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(350)

我们有非常复杂的管道,我们需要组成和时间表。我看到hadoop生态系统对此很有吸引力。当我在mesos或单机上运行spark并且没有hadoop集群时,基于spark的作业有哪些选择?

hsgswve4

hsgswve41#

oozie可以用于yarn,因为spark没有内置的调度器,所以您可以自由选择任何在集群模式下工作的调度器。
对于mesos,我觉得chronos是正确的选择,更多关于chronos的信息

xmakbtuz

xmakbtuz2#

与hadoop不同,用spark链接东西非常容易。所以写一个sparkscala脚本就足够了。我的第一个建议是打领带。
如果你想保持它的sql风格,你可以试试sparksql。
如果您有一个非常复杂的流,那么值得看看google数据流https://github.com/googlecloudplatform/dataflowjavasdk.

相关问题