仅检索数据时的hadoop性能

mspsb9vt  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(324)

我们知道添加更多的数据节点可以提高hadoop的性能。我的问题是:如果我们只想检索数据而不需要对其进行处理或分析,那么添加更多的数据节点是否有用?或者它根本不会提高性能,因为我们只有检索操作而没有任何计算或map reduce作业?

erhoui1w

erhoui1w1#

我将试着分部分回答:
如果您只从hadoop集群或hdfs检索信息,那么它与 Cat 命令,意思是只读取数据而不进行处理。
如果你想在你的数据上做一些计算,比如sum,avg或者任何其他的聚合函数,那么reduce的概念就出现了,于是map reduce就出现了。
因此,当您的数据非常庞大并且您也进行计算时,hadoop是有用的或有价值的。我认为,在hdfs中读取少量数据比在hdfs中读取大量数据没有什么性能优势(就像您定期将数据存储在rdbms中,每天只查询select*语句一样),但是当您的数据呈指数增长并且您想要进行计算时,您的rdbms查询将需要时间来执行。
为了让map reduce在巨大的数据集上高效地工作,您需要有大量的节点和计算能力,这取决于您的用例。

相关问题