我们在aws上的hdfs上有一个spark集群,它有2个核心节点和1个主节点。最近我发现所有作业都失败了,因为两个核心节点上的磁盘都已满。经进一步调查发现: /data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/*
已经满了。我能够看到数据,但我想弄清楚的是,究竟是哪个作业创建了这些文件,这些文件占用了近600-700gb的空间,因此我们可以防止将来发生这种情况。有人能告诉我在哪里/怎样开始调查吗?
我们在aws上的hdfs上有一个spark集群,它有2个核心节点和1个主节点。最近我发现所有作业都失败了,因为两个核心节点上的磁盘都已满。经进一步调查发现: /data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/*
已经满了。我能够看到数据,但我想弄清楚的是,究竟是哪个作业创建了这些文件,这些文件占用了近600-700gb的空间,因此我们可以防止将来发生这种情况。有人能告诉我在哪里/怎样开始调查吗?
1条答案
按热度按时间bjp0bcyl1#
检查4040上作业的用户界面…你可能会发现一些东西。否则,请告诉我们更多关于工作、数据和环境的细节。