几天前,雅虎发布了一篇关于storm on yarn项目的文章http://developer.yahoo.com/blogs/ydn/storm-yarn-released-open-source-143745133.html 这就有可能在Yarn上掀起风暴。这是一个很大的进步,但我有两个问题,关于运行任务,如风暴与Yarn。像storm这样的任务在执行时间上没有限制。。。我的意思是,当你运行风暴,你希望它会工作几天或几个月-听排队或其他。我的意思是有一组任务在执行时间上没有限制(我想报告0%的进度)
1) 超时是怎么回事?常规m/r挂机时被杀死,如何防止?我浏览了代码,但没有发现任何特殊代码2)而且,mr1有一个等待执行作业的队列:当集群完成一个作业时,它从队列中提取下一个作业。纱呢?如果我像工作a和工作b一样,推动无尽的风暴,工作b会被执行吗?
对不起,如果我的问题看起来很可笑,也许我错过了/不明白什么
1条答案
按热度按时间5cnsuln71#
hadoop的jobtracker负责集群资源和应用程序生命周期。yarn只负责管理集群资源,应用程序的生命周期由应用程序负责。
这种变化意味着yarn可以用来管理任何分布式范例。mr2当然是最初的实现(map/reduce over yarn),但是你可以看到一些其他的实现,比如你提到的storm on yarn或者hortonworks打算在hadoop中集成sql等等。
您可以查看一个名为weave from continuity的库,它提供了一个简单的api,用于在上构建分布式应用程序