hdfs核心节点磁盘已满，调查？

qyzbxkaa 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(494)

我们在aws上的hdfs上有一个spark集群，它有2个核心节点和1个主节点。最近我发现所有作业都失败了，因为两个核心节点上的磁盘都已满。经进一步调查发现： /data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/* 已经满了。我能够看到数据，但我想弄清楚的是，究竟是哪个作业创建了这些文件，这些文件占用了近600-700gb的空间，因此我们可以防止将来发生这种情况。有人能告诉我在哪里/怎样开始调查吗？

hadoop hdfs apache-spark cluster-computing diskspace

来源：https://stackoverflow.com/questions/33135911/hdfs-core-node-disk-full-investigation