对于一个使用hadoopmapreduce集群并每天接收大约30000兆字节数据的视频存储库,如何在集群中满足磁盘存储需求?在这种情况下,任何帮助都将不胜感激。你好,贝鲁兹
8ehkhllq1#
增加集群中的数据节点存储并使复制因子=0希望这就足够了
uyhoqukh2#
让我们做一些基本的计算每天输入大小=30000 tb。复制因子=3。对于运行mr或spark(最坏情况),存储系数=1因此,您需要每天在hdfs上存储300004 tb的空间。假设每30天删除一次旧数据,这就需要300004*30 tb的hdfs空间要记住的要点。试着让至少30%的hdfs免费运行mapreduce和spark作业根据您的视频格式,使用压缩库压缩数据并将其保存在hdfs上。hdfs上未压缩的数据用处不大,在mr、spark运行时会导致更高的i/o。
2条答案
按热度按时间8ehkhllq1#
增加集群中的数据节点存储并使复制因子=0希望这就足够了
uyhoqukh2#
让我们做一些基本的计算
每天输入大小=30000 tb。复制因子=3。对于运行mr或spark(最坏情况),存储系数=1
因此,您需要每天在hdfs上存储300004 tb的空间。
假设每30天删除一次旧数据,这就需要300004*30 tb的hdfs空间
要记住的要点。
试着让至少30%的hdfs免费运行mapreduce和spark作业
根据您的视频格式,使用压缩库压缩数据并将其保存在hdfs上。hdfs上未压缩的数据用处不大,在mr、spark运行时会导致更高的i/o。