hdfs—hadoop san存储重用

wgmfuz8q  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(419)

我们有600 TB的emc san存储。目前,oracle rac正在利用此存储。出于可伸缩性的考虑,我们正在用hadoop存储(yarn、spark-hive、shark)替换oraclerac,尽管我们在性能上有所妥协。
对于hadoop,建议使用本地存储而不是san存储。但我们的管理层不愿意浪费san存储。他们希望保护对san存储的投资。
我们如何最好地将san用于hadoop?以太网升级会有帮助吗?有哪些选项可以最大限度地利用san存储(如hadoop存储)。

68bkxrlz

68bkxrlz1#

很明显,您将san用于hadoop,但这是不可取的。san控制器中会存在争用并降低性能。
将san用于hadoop的最佳方法是:
1.使用raid-0创建lun。
2.lun不应共享,只需专用于一台datanode服务器
3.如果一个数据节点需要10gb,则创建2个LUN(或偶数),并在san的两个控制器之间对这些LUN进行负载平衡。
显然,您可以将san用于具有适当raid级别(冗余-非零)的namenode。

ylamdve6

ylamdve62#

假设我们使用相同的术语—特别是san是通过光纤通道网络访问的块设备—那么“本地存储”和“san存储”之间没有太大区别。
从中获得的性能受到相同因素的限制—控制器的数量、磁盘轴的数量、争用率等。您首先购买存储阵列/san的原因是,这样您就可以整合工作负载,以相同(或更低)的平均值获得更高的突发性能。
不过,还有一个附加因素—san通常包括一个结构,它是一个用于承载磁盘存储流量的网络。您使用的交换机通常是高性能/低延迟的,但它们也可能是瓶颈和争用点。
hadoop。。。通过使用hdfs有效地实现了同样的功能—使用它的多个本地磁盘来获得大的“突发”。这在本质上会导致san上的争用,因此您不会再从整合中获得太多好处—而且很可能最终会变得更糟,因为争用意味着瓶颈和延迟。
如果您的存储阵列具有良好的峰值吞吐量、良好的重复数据消除机制和较大的缓存,您可能会发现这样做会更好。只需确保您有足够的端到端峰值吞吐量和iop容量。也许你会发现你的境况比你想象的更糟,但是你是否应该以更低的成本重用某些东西,而不是支付额外的费用来做正确的事情,这与其说是一个技术上的决定,不如说是一个it政策上的决定。

相关问题