人们似乎非常热衷于将现有的应用程序转移到hadoop基础设施上,在许多公司或组织中,似乎有一个口号:如果你有很多数据,就使用hadoop。我想了解现有解决方案对集中式(大)数据的依赖性如何影响hadoop是否是一个好的解决方案。
在许多情况下,典型的“大数据”应用程序希望尽可能高效、快速地处理数十亿件事情,例如文档、消息和文件。我看到了以map/reduce方式在多个节点之间分配工作的优势。然而,通常情况下,为了能够处理这些事情,处理函数(Map器)必须在某处查找内容。例如,向sql server发送查询,在图形数据库中查找某些内容,在巨大的键/值存储中查找数据。此外,每个函数可能需要大量内存来存储/缓存处理其内容所需的所有数据。
这是不是违反了hadoop的做事方式,还是通常都是这样做的?最后一点是,除了将处理工作分散到一堆hadoop节点之外,您还需要找到一种方法来并行化或升级“中心服务器”(sql、graph数据库等),以便它们能够响应来自并行hadoop节点的所有请求,不是吗?
当并行化的处理依赖于大型中央数据存储中的快速查找时,使用hadoop的最佳方法是什么?
1条答案
按热度按时间vmpqdwk31#
这就是为什么你有像Cassandra这样的解决方案。当然,您不能只是大规模地并行计算,而是将数据存储作为单个实体。您还需要并行化相关资源。