我想部署一个用于数据分析的小型数据中心。我将主要从web应用程序获取数据。我知道我可以建立一个hadoop集群并根据需要扩展它。我还知道openstack是一个免费的、开源的云计算软件平台,主要作为基础设施即服务(iaas)部署。然而,很明显,一些行业更喜欢在openstack(sahara)之上使用hadoop。因此,我想知道hadoop与openstack的区别、优缺点。
简而言之,如果我把hadoop放在openstack之上,我还能得到什么额外的特性呢?
我想部署一个用于数据分析的小型数据中心。我将主要从web应用程序获取数据。我知道我可以建立一个hadoop集群并根据需要扩展它。我还知道openstack是一个免费的、开源的云计算软件平台,主要作为基础设施即服务(iaas)部署。然而,很明显,一些行业更喜欢在openstack(sahara)之上使用hadoop。因此,我想知道hadoop与openstack的区别、优缺点。
简而言之,如果我把hadoop放在openstack之上,我还能得到什么额外的特性呢?
1条答案
按热度按时间hs1ihplo1#
hadoop就是分布式存储和计算。为了实现这一点,它最初是在考虑本地存储的情况下开发的。数据将本地存储在每个服务器上,特定服务器上的数据将本地处理。这个概念被称为“数据局部性”。
云平台通常使用网络存储,这超出了数据局部性的目的。使用网络存储,数据不再存储在本地。然而,像“amazonemr”这样的技术仍然广泛应用于现收现付模式。持久数据将存储在s3这样的云中,但数据可以复制到本地文件系统,在“示例存储”上进行处理。这是一种混合方法。在emr中,如果我们每个月都要启动集群2天,当集群启动时,数据从s3复制到hdfs(本地存储),处理它,在终止集群之前,我们确保将要持久化的数据复制回s3。
回到openstack,它可以用于概念验证,但是真正的生产集群可能会有严重的性能问题。