我正在尝试在amazonec2上永久设置hadoop。目前我正在做的是每天早上启动ec2示例并设置hadoop。有什么办法可以避免这一繁琐的步骤吗?我正在寻找一个hadoop的形象,可以加载到ec2,使我的事情容易。
我知道我可以将emr用于hadoop服务。但是我不知道如何在不提交作业流的情况下启动emr(hadoop)集群。我的意思是我需要一个没有任何作业运行的hadoop集群。
最终我的目标是运行像distmap和seal这样的生物信息学应用程序。要运行这些应用程序,有许多依赖项。所以我需要一个免费的hadoop集群来设置环境,然后运行这些应用程序。我希望我要做的事情很清楚。
谢谢。
2条答案
按热度按时间t2a7ltrp1#
这更像是一个配置管理和自动化问题。试着cmt像厨师和木偶来完成这个根据您的愿望。
htzpubme2#
您可以执行以下操作之一:
方案1。从一个支持ebs的ec2示例开始,使用您最喜欢的linux发行版。继续安装您需要的hadoop软件。根据您需要的示例类型(主/从/etc)创建尽可能多的ec2示例。然后可以在aws控制台中创建自己的ami(右键单击ec2示例并单击“createami”)。然后,您可以基于这个ami启动您自己的示例,只要您需要。您也可以从示例存储区备份的示例创建ami,但这将意味着将所有内容转储到s3并从那里创建ami。有很多关于这个的教程,如果你需要指导,请留言:)
方案2。从一个基于hadoop的ami开始,在完成自己的配置/添加依赖项之后重复上面的步骤。我继续从aws控制台中搜索hadoopami,在eu-west-1中有48个(不知道你在哪个区域工作)。
方案3。以交互模式启动emr群集。在完成作业流之后,还有一个保持集群活动的选项。如果您还为emr示例设置了ec2密钥,那么您应该能够ssh到这些示例中,并拥有一个功能强大的hadoop集群(虽然不确定依赖关系,但是您最好使用自己的集群)。
我希望我正确地理解了你想要达到的目标,这对我有一点帮助。