仅检索数据时的hadoop性能

mspsb9vt 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(324)

我们知道添加更多的数据节点可以提高hadoop的性能。我的问题是：如果我们只想检索数据而不需要对其进行处理或分析，那么添加更多的数据节点是否有用？或者它根本不会提高性能，因为我们只有检索操作而没有任何计算或map reduce作业？

hadoop

来源：https://stackoverflow.com/questions/41037487/hadoop-performance-when-retrieving-data-only

1条答案

按热度按时间

erhoui1w1#

我将试着分部分回答：
如果您只从hadoop集群或hdfs检索信息，那么它与 Cat 命令，意思是只读取数据而不进行处理。
如果你想在你的数据上做一些计算，比如sum，avg或者任何其他的聚合函数，那么reduce的概念就出现了，于是map reduce就出现了。
因此，当您的数据非常庞大并且您也进行计算时，hadoop是有用的或有价值的。我认为，在hdfs中读取少量数据比在hdfs中读取大量数据没有什么性能优势（就像您定期将数据存储在rdbms中，每天只查询select*语句一样），但是当您的数据呈指数增长并且您想要进行计算时，您的rdbms查询将需要时间来执行。
为了让map reduce在巨大的数据集上高效地工作，您需要有大量的节点和计算能力，这取决于您的用例。

赞(0）回复(0）举报 2021-05-29

我来回答

仅检索数据时的hadoop性能

1条答案

相关问题

热门标签

最新问答