我对hadoop和map/reduce有一个肤浅的理解。我发现它对于运行许多小型独立进程的示例非常有用。但是我可以使用这个基础设施(具有容错性、可伸缩性和易用性)来运行大型的独立进程吗?
假设我想对我公司(600)的客户机的状态进行一定的分析,这个分析需要大约1分钟的过程,访问各种静态数据,但是一个客户机的分析与其他客户机无关。所以现在我有10小时的集中处理,但是如果我能将这个处理分布在20个节点上,我可以在大约半小时内完成它(加上由于数据复制而产生的一些开销)。如果我能以合理的价格在amazonec2中租用100个节点,它将在6分钟内完成,这将从根本上改变我分析的可用性。
hadoop是解决我问题的正确工具吗?它是否可以运行每个需要1分钟的big mapper进程?如果没有,我应该去哪里找?
提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!