pig在运行oozie时不清理/tmp目录文件?

eeq64g8w  于 2021-06-04  发布在  Hadoop
关注(0)|答案(0)|浏览(252)

我每天都在做oozie协调员的工作。协调器以1440(即24小时)的频率触发工作流作业。工作流是一个简单的数据管道,它使用java操作提取一些外部数据,使用pig操作对它们进行处理,然后将处理后的数据sqoop输出到外部db。
在过去的两个月里一切正常。但是,我最近注意到集群的磁盘空间不足。结果,我检查了hdfs,出乎意料的是,我发现/tmp目录的大小是/user目录的3倍。
当我深入/tmp目录时,我发现以前的一些工作流作业temp工作目录仍然驻留在/tmp目录中。我认为这些目录应该在作业完成后进行清理(不管作业的最终状态如何)。
我已经手动删除了几个大目录,现在,磁盘空间问题得到解决。然而,我想了解为什么不是所有的临时目录都被删除,有什么想法为什么?
以下是群集详细信息:
hadoop发行版:cloudera(cdh 4.8)
节点总数:6
名称节点:1
次要名称节点:1
数据节点:4
每个节点的磁盘空间:500 gb
以下是fs-du结果:

bash-4.1$ hadoop fs -du -h /
2.5 K    /hbase
217.0 G  /tmp
46.5 G   /user

Inside the /tmp :

bash-4.1$ hadoop fs -du -h /tmp
0        /tmp/.cloudera_health_monitoring_canary_files
4        /tmp/mapred
22.9 M   /tmp/temp-100334970
4.6 M    /tmp/temp-1014433124
1.8 M    /tmp/temp-1050713307
243.7 K  /tmp/temp-1166395306
188.6 M  /tmp/temp-1243526890
11.6 M   /tmp/temp-1246394296
182.2 K  /tmp/temp-1376015266
7.2 M    /tmp/temp-1426134619
18.4 G   /tmp/temp-1490128243
527.2 M  /tmp/temp-1582569445
1.6 G    /tmp/temp-15985618
27.3 M   /tmp/temp-16966016
1.7 M    /tmp/temp-1920170181
3.6 M    /tmp/temp-194155462
190.0 G  /tmp/temp-2050991966
173.6 K  /tmp/temp-31318147
2.5 M    /tmp/temp-327605300

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题