我想知道hdfs联邦和一个全新的hdfs集群之间的区别,我应该使用联邦还是仅仅构建一个全新的集群?
pnwntuvh1#
federation/viewfs允许您从现有集群访问全新的namenode(集群)nameservice,或者桥接两个现有集群。
gkl3eglg2#
一般来说,当您有一个非常大的集群(1000+),并且您正在突破hdfs中所能存储的限制时,就会使用联合。联合允许您划分名称空间并在一个hdfs示例中维护所有数据。根据您使用数据的方式,您可能希望使用联合,或者使用多个较小的hadoop集群,然后使用 distcp 当您需要在集群之间传输数据时。例如,如果您的数据是孤立的,那么使用多个集群是有意义的。如果您的数据已经超出了namenode的内存,但是您仍然希望对其运行一些分析,那么联合是有意义的。twitter使用federation,并在twitter的hadoop文件系统博客中提到它。您还可以通过以下方式了解基于hdfs路由器的联合íñ微软的igo goiri和uber的chao sun。
distcp
2条答案
按热度按时间pnwntuvh1#
federation/viewfs允许您从现有集群访问全新的namenode(集群)nameservice,或者桥接两个现有集群。
gkl3eglg2#
一般来说,当您有一个非常大的集群(1000+),并且您正在突破hdfs中所能存储的限制时,就会使用联合。联合允许您划分名称空间并在一个hdfs示例中维护所有数据。根据您使用数据的方式,您可能希望使用联合,或者使用多个较小的hadoop集群,然后使用
distcp
当您需要在集群之间传输数据时。例如,如果您的数据是孤立的,那么使用多个集群是有意义的。如果您的数据已经超出了namenode的内存,但是您仍然希望对其运行一些分析,那么联合是有意义的。twitter使用federation,并在twitter的hadoop文件系统博客中提到它。您还可以通过以下方式了解基于hdfs路由器的联合íñ微软的igo goiri和uber的chao sun。