hdfs—hadoop如何在每个数据节点的硬盘上进行写入?

z5btuh9x  于 2021-06-04  发布在  Hadoop
关注(0)|答案(3)|浏览(327)

我想知道在每个数据节点上,我们有四个500gb容量的hds更好,还是一个2tb容量的hds更好,换句话说,在hds中,一个数据节点在hds之间的写入是否是并行的?

balp4ylt

balp4ylt1#

不考虑冷却/电源和其他方面。多个硬盘提供了比相同容量的单个硬盘更好的r/w吞吐量。既然我们谈论的是大数据,这就更有意义了。此外,多个硬盘提供了更好的容错性比一个更大的单硬盘。
查看此博客,了解一般的h/w建议。

pw9qyyiw

pw9qyyiw2#

如果您有4个磁盘作为/disk1、/disk2、/disk3和/disk4装载到一个datanode,它通常使用循环来写入这些磁盘。拥有多个磁盘通常是更好的方法,因为当hadoop试图同时从不同的磁盘读取不同的块时,它不会受到单个磁盘的i/o能力的限制。

wlwcrazw

wlwcrazw3#

它不并行地读/写同一个块。但是,它确实并行地读/写多个块。也就是说,如果你只是写一个文件,你不会看到任何区别。。。但是,如果您正在运行一个mapreduce作业,每个节点有几个任务(典型),您将受益于额外的吞吐量。
除了500gb v,还有其他考虑因素。2tb。节点中的物理空间、成本、热/冷等。例如,如果您将一个盒子装满四倍于四倍的驱动器,您的节点是否需要2u而不是2tb的1u?但如果你只是谈论性能,我会采取4x500gb超过1x2tb的任何一天。

相关问题