关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。
三年前关门了。
改进这个问题
我正在四处寻找关于基于aws的数据摄取管道的最佳实践的一些资源,该管道使用kafka、storm、spark(流式处理和批处理),使用各种微服务从hbase读写数据层。对于我的本地env,我正在考虑创建docker或vagrant图像,以允许我与env进行交互。我的问题变成了如何为一个更接近prod的端到端的功能环境提供支持,死路一条就是拥有一个始终在线的环境,但是这会变得很昂贵。同样,在perf环境方面,似乎我可能不得不使用punt和服务帐户,这些帐户可以拥有“世界运行”,但其他帐户将受到计算资源的限制,因此它们不会压倒集群。
我很好奇其他人是如何处理同样的问题的,如果我想这个倒退。
2条答案
按热度按时间nimxete21#
试试hadoop迷你集群。它支持您正在使用的大多数工具。
小型集群
3htmauhk2#
aws还通过ec2容器提供docker服务。如果使用docker映像的本地部署成功,则可以 checkout aws ec2容器服务(https://aws.amazon.com/ecs/).
还有,看看storm docker(https://github.com/wurstmeister/storm-docker),提供用于部署storm群集的易于使用的docker文件。