如何获取hdfs使用情况报告的详细信息

cdmah0mi  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(293)

我们有容量为900tb的HDF。随着存储的数据越来越多,很难跟踪哪些是有用的,哪些是可以删除的。我想分析以下模式的hdfs使用情况,以便优化使用容量。
什么是经常访问的数据。
数据长时间未被接触/访问(可能会被删除)
用户的数据使用分布。
活跃用户。

yjghlzjz

yjghlzjz1#

您可以从以下公式中导出该数据:
(1) hdfs审核日志(每个用户/ip的访问模式)
(2) fsimage(每个文件的访问次数,未访问的数据)
(1) 是否已启用hdfs审核日志?在这里阅读更多。
(2) 从fsimage开始读这个-有一个例子可以得到“长时间不被接触/访问的数据”
您可能还希望考虑har来归档数据(而不是删除数据),从而减少namenode上的存储使用和宝贵内存。

相关问题