根据amazon elastic mapreduce上使用/可用的示例,计算要使用的hadoopMap器和还原器的正确数量的最佳方法是什么(使用推荐作业(mahout-core-0.7发行版)
hgc7kmma1#
一般的hadoop答案适用于:让hadoop选择Map器的数量将reducer的数量设置为集群中reduce插槽的数量对于emr,请查找在您使用的示例类型上默认运行的缩减器数:http://docs.aws.amazon.com/elasticmapreduce/latest/developerguide/hadoopmemorydefault_ami2.3.html然后乘以你使用的工人数量。这是一个相当理想的减速机数量——甚至是它的一个小倍数。除非你有一个明确的理由认为这些不是最佳的,我还是同意这个。ps不要忘记使用spot示例为您的员工节省资金和/或部署更多员工。广告插播:如果你对mahout、推荐和emr感兴趣,你应该看看myrrix。我是创始人,也是你现在运行的一些mahout代码的作者。这是一个基于hadoop的“下一代”推荐产品,它已经针对emr进行了很好的优化。
1条答案
按热度按时间hgc7kmma1#
一般的hadoop答案适用于:
让hadoop选择Map器的数量
将reducer的数量设置为集群中reduce插槽的数量
对于emr,请查找在您使用的示例类型上默认运行的缩减器数:http://docs.aws.amazon.com/elasticmapreduce/latest/developerguide/hadoopmemorydefault_ami2.3.html
然后乘以你使用的工人数量。这是一个相当理想的减速机数量——甚至是它的一个小倍数。
除非你有一个明确的理由认为这些不是最佳的,我还是同意这个。
ps不要忘记使用spot示例为您的员工节省资金和/或部署更多员工。
广告插播:如果你对mahout、推荐和emr感兴趣,你应该看看myrrix。我是创始人,也是你现在运行的一些mahout代码的作者。这是一个基于hadoop的“下一代”推荐产品,它已经针对emr进行了很好的优化。