在过去的10天里,我一直在hdfs上看到大量的磁盘使用。正如我在cloudera manager的hosts选项卡上的datanode hosts和hdfs服务使用率的disk usage图表中看到的,使用率几乎增加了两倍,从~7tb增加到~20tb。一开始我在想原因是我在那10天的第6天升级到cm和cdh的时候做错了什么,但是我意识到这已经开始发生了。
我先检查了cloudera manager上的文件浏览器,但没有看到那里的大小数字和之前的大小数字有什么区别。我也有过去4天的磁盘使用报告,他们说没有增加。
跑步 hdfs dfsadmin -report
也返回相同的值。
linux上的dfs文件夹证实了使用率的增加,但是我不能告诉您发生了什么变化,因为有数百万个文件,而且我不知道如何检查上千个嵌套文件夹中最后修改的文件。即使我找到了,我也不知道hdfs上的文件是什么。
就在最近,我被告知,hdfs上的另一个用户正在拆分他们的大文件。他们拥有将近三分之二的数据。如果将它们分割成比hdfs块大小小得多的块,是否会导致如此大的增加?如果是,为什么我不能在浏览器/报表上看到它?
有没有什么方法可以检查hdfs中最近修改了哪些文件夹和文件,或者我可以检查/执行的其他操作?任何建议或评论都将不胜感激。
1条答案
按热度按时间siv3szwd1#
为了检查hdfs活动,clouderanavigator提供了有关hdfs中记录的所有事件的优秀信息。
登录navigator后,检查audits选项卡。它还允许我们过滤诸如delete、ipaddress、username等活动。
普通的搜索页面还提供了过滤块大小(是否<256mb,>256mb)、文件还是目录、源类型、路径、复制计数等等。