在hadoopmapreduce集群中增加此数据存储库的大小

vmdwslir  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(338)

对于一个使用hadoopmapreduce集群并每天接收大约30000兆字节数据的视频存储库,如何在集群中满足磁盘存储需求?在这种情况下,任何帮助都将不胜感激。你好,贝鲁兹

8ehkhllq

8ehkhllq1#

增加集群中的数据节点存储并使复制因子=0希望这就足够了

uyhoqukh

uyhoqukh2#

让我们做一些基本的计算
每天输入大小=30000 tb。复制因子=3。对于运行mr或spark(最坏情况),存储系数=1
因此,您需要每天在hdfs上存储300004 tb的空间。
假设每30天删除一次旧数据,这就需要30000
4*30 tb的hdfs空间
要记住的要点。
试着让至少30%的hdfs免费运行mapreduce和spark作业
根据您的视频格式,使用压缩库压缩数据并将其保存在hdfs上。hdfs上未压缩的数据用处不大,在mr、spark运行时会导致更高的i/o。

相关问题