hadoop：在迭代Map作业之间维护内存缓存

hgncfbus 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(331)

我想迭代调用集群中的map reduce作业。在每次迭代中，Map器应该处理大约10000个庞大的记录。在每次迭代中，主节点使用不同的参数调用这些Map器，但输入记录保持不变。无需每次调用Map器时都加载这些记录；在迭代过程中将它们缓存在主内存中，并且只处理给定的新参数值，这将是非常好的。
我计划使用aws elastic mapreduce，它运行hadoop，我的实现使用python，所以javaapi似乎没有帮助。有没有可能在这种体系结构中实现这种缓存？如果不是，aws或其他公共云中适合的架构是什么？

hadoop mapreduce python amazon-web-services bigdata

来源：https://stackoverflow.com/questions/18882498/hadoop-maintain-memory-cache-between-iterated-map-jobs