我想迭代调用集群中的map reduce作业。在每次迭代中,Map器应该处理大约10000个庞大的记录。在每次迭代中,主节点使用不同的参数调用这些Map器,但输入记录保持不变。无需每次调用Map器时都加载这些记录;在迭代过程中将它们缓存在主内存中,并且只处理给定的新参数值,这将是非常好的。
我计划使用aws elastic mapreduce,它运行hadoop,我的实现使用python,所以javaapi似乎没有帮助。有没有可能在这种体系结构中实现这种缓存?如果不是,aws或其他公共云中适合的架构是什么?
1条答案
按热度按时间0h4hbjxa1#
hadoop1中的map/reduce不适合这种情况。您应该看看hadoop2.0和yarn,它支持更灵活的模型。
您还可以看看apachehama,它可以在aws上运行,并通过蒸汽支持python