不久前,我发现我们的每个数据节点都在以~10m/s的累积速度不断读取磁盘。我是和你一起发现的 iotop
使用。
到目前为止我所做的诊断:
我试图停止集群上的不同服务,但只有当我完全停止hdfs服务时它才会停止
我查看了一个数据节点的日志,但只能看到一些 HDFS_WRITE
s操作每1-2分钟发生一次,与读取数据无关。我当然在空闲时间查过了
关于我们系统的一些信息:
我们现在使用的是cdh发行版5.8,但是这个问题在几个版本之前就开始了
在那一刻,没有在Yarn运行的工作
这个问题已经持续了好几个月了,而且以前没有
我现在的主要嫌疑是cdh的一些审计程序。不幸的是,我找不到任何关于这些过程管理的好文档。
以下是来自的数据节点进程的信息 ps -ef
输出:
hdfs 58093 6398 10 Oct11 ? 02:56:30 /usr/lib/jvm/java-8-oracle/bin/java -Dproc_datanode -Xmx1000m -Dhdfs.audit.logger=INFO,RFAAUDIT -Dsecurity.audit.logger=INFO,RFAS -Djava.net.preferIPv4Stack=true -Dhadoop.log.dir=/var/log/hadoop-hdfs -Dhadoop.log.file=hadoop-cmf-hdfs-DATANODE-hadoop-worker-03.srv.mycompany.org.log.out -Dhadoop.home.dir=/opt/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/lib/hadoop -Dhadoop.id.str=hdfs -Dhadoop.root.logger=INFO,RFA -Djava.library.path=/opt/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/lib/hadoop/lib/native -Dhadoop.policy.file=hadoop-policy.xml -Djava.net.preferIPv4Stack=true -server -Xms1073741824 -Xmx1073741824 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+CMSParallelRemarkEnabled -XX:OnOutOfMemoryError=/usr/lib/cmf/service/common/killparent.sh -Dhadoop.security.logger=INFO,RFAS org.apache.hadoop.hdfs.server.datanode.DataNode
如果有任何线索,我会非常感激的。
暂无答案!
目前还没有任何答案,快来回答吧!