hadoop如何存储数据和使用mapreduce?

vktxenjb  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(345)

当我试图理解 hadoop 建筑,我想找出一些问题。当有一个大数据输入时,hdfs会把它分成多个卡盘(每个卡盘64mb或128mb),然后多次复制以存储在内存块中,对吗?
然而,我仍然不知道在哪里 MapReduce 工作。它是用来分割和合并数据来存储它的吗?或者用它来返回一些有用的输出?

smdncfj3

smdncfj31#

在hdfs中存储数据与用mapreduce范式分析数据是完全不同的。
当上传到hdfs时,大数据文件被分割成块,这些块存储在datanodes中,每个块的复制次数与配置的复制因子相同(默认情况下为3)。数据拆分就像将文件除以配置的块大小一样简单。
如前所述,mapreduce是分析大数据文件以获取增值信息的编程范例。简单地说,每个文件块被分配给一个Map任务,以便所有Map者在chuncks上执行相同的操作;一旦完成,输出的部分结果将被发送到reducer,以便以某种方式聚合数据。

相关问题