为什么在hadoop的mapreduce中增加集群数量会加快查询速度？

hgqdbh6s 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(401)

我刚开始学习hadoop，在官方指南中，它提到了
集群能够使查询数据的速度达到原始数据的两倍。
另一方面，传统的rdbm仍然需要两倍的时间来查询结果。
我不能理解聚类和处理数据之间的关系。希望有人能给我
一些想法。

hadoop mapreduce cluster-computing querying

来源：https://stackoverflow.com/questions/27466308/why-increased-amout-of-clusters-speed-up-query-in-hadoops-mapreduce

1条答案

按热度按时间

6jjcrrmo1#

这是分布式计算的基本思想。
如果您有一台服务器处理大小为x的数据，它将花费时间y。如果你有2倍的数据，同一台服务器将（大致）花费2年的时间在上面。
但是如果有10台服务器并行工作（以分布式方式），并且它们都拥有完整的数据（x），那么它们将花费y/10的时间。通过在一台服务器上增加10倍的资源，您将获得相同的效果，但这通常是不可行和/或不可行的(比如将cpu功率提高10倍是不太合理的。）
当然，这是一个非常粗略的简化，hadoop并没有将整个数据集存储在所有服务器上—只存储所需的部分。hadoop在每台服务器上都有一部分数据，服务器处理这些数据，最终生成一个“答案”。这需要通信和不同的协议来商定共享什么数据、如何共享数据、如何分发数据等等——这就是hadoop所做的。

赞(0）回复(0）举报 2021-05-30

我来回答

为什么在hadoop的mapreduce中增加集群数量会加快查询速度？

1条答案

相关问题

热门标签

最新问答