有人尝试过使用glusterfs或ceph作为hadoop的后端吗?我不是说用插件来缝合东西。性能是否比hdfs本身更好?是否适合生产使用。另外,将对象存储、hadoop hdfs存储合并为单个存储真的是个好主意吗?或者最好把他们分开。
7bsow1i61#
我以前使用过glusterfs,它有一些不错的特性,但最后我选择在hadoop中使用hdfs作为分布式文件系统。glusterfs的优点是它不需要主客户机节点。集群中的每个节点都是相等的,因此glusterfs中不存在单点故障。我在glusterfs中发现的另一件有趣的事情是它有glusterfs客户机模块,http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume,当您要将文件存储到glusterfs时,不需要与glusterfs api接口,您只需将文件复制到glusterfs客户机中装载的卷,就可以简单地完成这项工作。但是我发现glusterfs很难集成到hadoop生态系统中,比如spark、mapreduce等。。hadoop生态系统中的所有组件都支持hdfs。我认为glusterfs很适合构建一个集群系统,比如独立于hadoop的文件存储。
hgqdbh6s2#
我在hadoop2.7中尝试过ceph作为hdfs的替代品,在解决了许多集成问题之后,我发现它比terasort基准中带有默认复制因子的hdfs慢了2/3倍。我不知道为什么。其他人尝试了不同的方法,结果相似:http://www.snia.org/sites/default/files/sdc15_presentations/cloud_files/yuanzhou_big_data_analytics_on_object_store_r3.pdf将对象和hdfs存储结合起来是个好主意吗?我认为这个问题是不对的。hdfs(通过ozone和fuse)和ceph都提供了将它们用作对象存储和常规posix文件系统的能力,ceph的edge也提供块存储,而hdfs目前正在讨论这一点:https://issues.apache.org/jira/browse/hdfs-11118 如果问题是“我能否将我的存储公开为posix fs,object,如果您的设计能够满足您对可扩展性和高可用性的需求,那么实际上这是一个很好的主意。
2条答案
按热度按时间7bsow1i61#
我以前使用过glusterfs,它有一些不错的特性,但最后我选择在hadoop中使用hdfs作为分布式文件系统。
glusterfs的优点是它不需要主客户机节点。集群中的每个节点都是相等的,因此glusterfs中不存在单点故障。我在glusterfs中发现的另一件有趣的事情是它有glusterfs客户机模块,http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume,当您要将文件存储到glusterfs时,不需要与glusterfs api接口,您只需将文件复制到glusterfs客户机中装载的卷,就可以简单地完成这项工作。
但是我发现glusterfs很难集成到hadoop生态系统中,比如spark、mapreduce等。。hadoop生态系统中的所有组件都支持hdfs。我认为glusterfs很适合构建一个集群系统,比如独立于hadoop的文件存储。
hgqdbh6s2#
我在hadoop2.7中尝试过ceph作为hdfs的替代品,在解决了许多集成问题之后,我发现它比terasort基准中带有默认复制因子的hdfs慢了2/3倍。我不知道为什么。其他人尝试了不同的方法,结果相似:
http://www.snia.org/sites/default/files/sdc15_presentations/cloud_files/yuanzhou_big_data_analytics_on_object_store_r3.pdf
将对象和hdfs存储结合起来是个好主意吗?我认为这个问题是不对的。hdfs(通过ozone和fuse)和ceph都提供了将它们用作对象存储和常规posix文件系统的能力,ceph的edge也提供块存储,而hdfs目前正在讨论这一点:https://issues.apache.org/jira/browse/hdfs-11118 如果问题是“我能否将我的存储公开为posix fs,object,如果您的设计能够满足您对可扩展性和高可用性的需求,那么实际上这是一个很好的主意。