我想在aws中设置一个hadoop集群,它的总容量约为100t。如果我去按照http://aws.amazon.com/ec2/instance-types/ ,我没有为数据节点获得理想的配置,我想为工作节点使用本地磁盘(ssd/非ssd)。例如,如果我为datanode选择cc2.8xlarge示例,那么对于100t,我必须设置30个cc2.8xlarge示例,这将非常昂贵。你能建议我如何在aws(ec2)中用最少数量的datanodes配置集群吗?或者aws中是否有hadoop的标准配置?
我想在aws中设置一个hadoop集群,它的总容量约为100t。如果我去按照http://aws.amazon.com/ec2/instance-types/ ,我没有为数据节点获得理想的配置,我想为工作节点使用本地磁盘(ssd/非ssd)。例如,如果我为datanode选择cc2.8xlarge示例,那么对于100t,我必须设置30个cc2.8xlarge示例,这将非常昂贵。你能建议我如何在aws(ec2)中用最少数量的datanodes配置集群吗?或者aws中是否有hadoop的标准配置?
2条答案
按热度按时间siv3szwd1#
如果你想自己做hadoop,那么你可以使用ebs驱动器。您可以在每个节点上安装一组驱动器(我记得大约10-20个),每个驱动器最多可以有1 tb。
如果你不想自己去做,那就像monkeymatrix说的那样研究emr。
mbzjlibv2#
听起来你很想考虑弹性mapreduce,它是基于hadoop的核心aws服务。
http://aws.amazon.com/elasticmapreduce/
您可以指定您的配置,集群将为您启动—这比您自己尝试配置ec2示例要容易得多。