hadoop hdfs中的/tmp目录是什么?

ibps3vxo  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(874)

我有一个由4个数据节点组成的集群,每个节点上的hdfs结构如下

我面临磁盘空间问题,正如您所见,hdfs中的/tmp文件夹占用了更多空间(217gb)。所以我试图调查/tmp文件夹中的数据。我找到了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含一些10gb到20gb大小的部分文件。我想清除这个/tmp目录。任何人请让我知道删除这些tmp文件夹或部分文件的后果。会影响我的集群吗?

gzjq41n4

gzjq41n41#

hdfs/tmp目录主要用作mapreduce操作期间的临时存储。mapreduce工件、中间数据等将保存在此目录下。这些文件将在mapreduce作业执行完成时自动清除。如果删除此临时文件,可能会影响当前正在运行的mapreduce作业。
临时文件由pig创建。临时文件删除发生在最后。如果脚本执行失败或终止,pig不会处理临时文件删除。那你必须处理好这种情况。最好在脚本本身中处理这个临时文件清理活动。
下面的文章给你一个很好的理解
http://www.lopakalogic.com/articles/hadoop-articles/pig-keeps-temp-files/

相关问题