我们有容量为900tb的HDF。随着存储的数据越来越多,很难跟踪哪些是有用的,哪些是可以删除的。我想分析以下模式的hdfs使用情况,以便优化使用容量。什么是经常访问的数据。数据长时间未被接触/访问(可能会被删除)用户的数据使用分布。活跃用户。
yjghlzjz1#
您可以从以下公式中导出该数据:(1) hdfs审核日志(每个用户/ip的访问模式)(2) fsimage(每个文件的访问次数,未访问的数据)(1) 是否已启用hdfs审核日志?在这里阅读更多。(2) 从fsimage开始读这个-有一个例子可以得到“长时间不被接触/访问的数据”您可能还希望考虑har来归档数据(而不是删除数据),从而减少namenode上的存储使用和宝贵内存。
1条答案
按热度按时间yjghlzjz1#
您可以从以下公式中导出该数据:
(1) hdfs审核日志(每个用户/ip的访问模式)
(2) fsimage(每个文件的访问次数,未访问的数据)
(1) 是否已启用hdfs审核日志?在这里阅读更多。
(2) 从fsimage开始读这个-有一个例子可以得到“长时间不被接触/访问的数据”
您可能还希望考虑har来归档数据(而不是删除数据),从而减少namenode上的存储使用和宝贵内存。