我们有非常复杂的管道,我们需要组成和时间表。我看到hadoop生态系统对此很有吸引力。当我在mesos或单机上运行spark并且没有hadoop集群时,基于spark的作业有哪些选择?
hsgswve41#
oozie可以用于yarn,因为spark没有内置的调度器,所以您可以自由选择任何在集群模式下工作的调度器。对于mesos,我觉得chronos是正确的选择,更多关于chronos的信息
xmakbtuz2#
与hadoop不同,用spark链接东西非常容易。所以写一个sparkscala脚本就足够了。我的第一个建议是打领带。如果你想保持它的sql风格,你可以试试sparksql。如果您有一个非常复杂的流,那么值得看看google数据流https://github.com/googlecloudplatform/dataflowjavasdk.
2条答案
按热度按时间hsgswve41#
oozie可以用于yarn,因为spark没有内置的调度器,所以您可以自由选择任何在集群模式下工作的调度器。
对于mesos,我觉得chronos是正确的选择,更多关于chronos的信息
xmakbtuz2#
与hadoop不同,用spark链接东西非常容易。所以写一个sparkscala脚本就足够了。我的第一个建议是打领带。
如果你想保持它的sql风格,你可以试试sparksql。
如果您有一个非常复杂的流,那么值得看看google数据流https://github.com/googlecloudplatform/dataflowjavasdk.