我怎么能修好这个?
/tmp/hadoop-yarn/staging/ubuntu/.staging/job_1450038005671_0025/job.jar: Under replicated BP-938294433-10.0.1.190-1450037861153:blk_1073744219_3398. Target Replicas is 10 but found 3 replica(s).
我跑的时候就知道了 hadoop fsck /
在我的主节点中。我想我应该换一个 .xml
文件在conf或类似的我只是不知道该更改哪个文件。
请注意 dfs.replication
在 hdfs-site.xml
已设置为3。我没有 dfs.replication.max
在我的 hdfs-site.xml
文件。
3条答案
按热度按时间7xllpg7q1#
作为作业一部分提交的文件(jar等)的复制计数由参数控制
mapreduce.client.submit.file.replication
(或mapred.submit.replication
在2.4版之前的集群中)的mapred-site.xml中。对于小于10个节点的集群,您可以将其调低,或者忽略来自fsck的消息。fwiw,有一个jira为这个,但我怀疑它永远不会得到工作。
lbsnaicq2#
你可以忽略/tmp/hadoop-yarn/staging/ubuntu/.staging/job\u 1450038005671\u 0025/job.jar,它是一个作业资源。dfs.replication对作业资源没有影响。
作业资源,如jar文件、使用-files(分布式缓存)传递的文件,将使用10作为复制因子复制到hdfs
作业运行时,这些作业资源(代码)将被复制到容器/任务以处理数据
一旦作业基于阈值完成,这些资源将自动回收。
这个特性有助于在处理数据时实现数据局部性(代码到达数据的位置)。
q9rjltbz3#
hdfs配置文件
hdfs-site.xml
应包含dfs.replication
描述块复制因子的属性:违约
hdfs-site.xml
位置是/etc/hadoop/hdfs-site.xml