hadoop>在hadoop作业运行时datanode和namenode进程是否工作

gcmastyq  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(370)

hadoop启动后,有两种类型的守护进程正在运行。一个是namenode上名为namenode的守护进程,另一个是datanode上名为datanode的守护进程。我确信当本地文件系统中的一个大文件通过“hdfs dfs”命令加载到hdfs时,会用到它们。
但是,当hadoopmapreduce作业正在运行时,是否也会使用它?我的理解是否定的,但它也可能在shuffle期间使用,当map函数的输出可能从一个datanode转移到另一个datanode时。

mefy6pfw

mefy6pfw1#

对。名称节点和数据节点一直在运行。
当mapreduce作业启动时,根据作业的不同,可以派生“n”个mapper和reduce任务(由拆分的数量决定)。
每个Map器读取输入的一部分(分割)。因此,在从hdfs读取输入时,涉及名称节点/数据节点。
在无序排列和排序阶段,还原程序直接从不同的Map器读取数据。但是,当处理完成时,reduce任务必须将输出写入hdfs。同样,name node/data node参与将数据写入hdfs。

相关问题