我想使用apacheyarn作为集群和资源管理器来运行一个框架,在这个框架中,资源将在同一框架的不同任务之间共享。我想使用我自己的分布式堆外文件系统。除了hdfs之外,还可以使用其他分布式文件系统吗?如果是,需要实现哪些hdfs api?运行yarn需要哪些hadoop组件?
mwngjboj1#
这里有一些不同的问题
是的:这就是linkedin过去使用http://downloads部署samza的方式。samza不需要集群文件系统,所以集群中没有运行hdfs,只有local file://filesystems,每个主机一个。需要集群文件系统的应用程序不能在这样的集群中工作。
对。关于“文件系统”是什么,请看文件系统规范。您需要一个跨文件系统的一致视图:newly create files list(),deleted files is not found,updates instally visible。文件和目录的rename()必须是原子操作,最好是o(1)。它用于工作的原子提交,检查点。。。哦,对于hbase,需要append()。mapr做到了,redhat和glusterfs;ibm和emc为他们服务。请记住,几乎所有的东西都是在hdfs上测试的;您最好希望其他集群fs已经完成了测试(或者有人已经为他们完成了测试,比如hortonworks或cloudera)。
这取决于fs是否提供了一致的文件系统视图,而不是最终的一致性世界视图。hbase是真正的测试。MicrosoftAzure存储是一致的,拥有获得对fs和rename()的独占访问权限的租约,速度非常快。在azure中,它完全取代了hdfs。谷歌云存储于2017年3月1日宣布,gcs提供一致性。也许现在可以作为替代品;没有经验。amazonemr确实提供了s3作为替代品,它使用(a)dynamo来实现一致的元数据,(b)做一些可怕的事情来让hbase工作。asf自己的s3客户机s3a不能作为替代品。我们的团队致力于将读写性能作为数据的来源和最终目的地;在s3guard中,添加dynamo层和s3guard提交程序,使其能够作为高性能的工作目标(在避免rename()的同时对故障具有弹性)。
好吧,你当然可以试试!首先让所有的文件系统契约测试开始工作,这些测试度量基本的api遵从性。然后看看所有的apachebigtop测试,它们进行系统集成。我建议你一开始就避免使用hbase和acumulo,重点放在:mapreduce、hive、spark、flink。不要害怕进入hadoop常见的dev和bigtop列表并提出问题。
2vuwiymt2#
下面是您必须实现的接口,关注您必须支持的保证。有一个工具可以测试合同。如果您需要一个例子,hadoop中有大量不同系统的实现,例如s3/azureblobs/ftp,它们是一个很好的起点。您可以按类配置文件系统实现,所有组件都应遵循 fs.defaultFS 作为配置密钥。
fs.defaultFS
vql8enpb3#
yarn并不是分布式集群的唯一资源管理器。apachemesos与资源管理器类似(但内部技术不同)。它不依赖于hadoop组件。在企业云基础设施中,已经有许多用途,如dc/os(由mesos、docker等组成)
z9zf31ra4#
是的,只要您有一个支持hdfsapi的文件存储实现,就可以。例如,您可以使用aws s3(s3n://或s3a://)而不是hdfs。很少有其他文件系统支持hdfsapi。
6qqygrtg5#
Yarn无需hdfs即可使用。您不必配置和启动hdfs服务,因此它将在没有hdfs的情况下运行。但是没有hadoop就不能安装yarn。您必须下载hadoop并只配置yarn(以及您想要使用的其他服务)。
5条答案
按热度按时间mwngjboj1#
这里有一些不同的问题
你能用像s3这样的东西来传播二进制文件吗?
是的:这就是linkedin过去使用http://downloads部署samza的方式。samza不需要集群文件系统,所以集群中没有运行hdfs,只有local file://filesystems,每个主机一个。
需要集群文件系统的应用程序不能在这样的集群中工作。
你能提出一个有替代文件系统的Yarn簇吗?
对。
关于“文件系统”是什么,请看文件系统规范。您需要一个跨文件系统的一致视图:newly create files list(),deleted files is not found,updates instally visible。文件和目录的rename()必须是原子操作,最好是o(1)。它用于工作的原子提交,检查点。。。哦,对于hbase,需要append()。
mapr做到了,redhat和glusterfs;ibm和emc为他们服务。请记住,几乎所有的东西都是在hdfs上测试的;您最好希望其他集群fs已经完成了测试(或者有人已经为他们完成了测试,比如hortonworks或cloudera)。
你能用一个对象存储作为底层fs来创建一个Yarn集群吗。
这取决于fs是否提供了一致的文件系统视图,而不是最终的一致性世界视图。hbase是真正的测试。
MicrosoftAzure存储是一致的,拥有获得对fs和rename()的独占访问权限的租约,速度非常快。在azure中,它完全取代了hdfs。
谷歌云存储于2017年3月1日宣布,gcs提供一致性。也许现在可以作为替代品;没有经验。
amazonemr确实提供了s3作为替代品,它使用(a)dynamo来实现一致的元数据,(b)做一些可怕的事情来让hbase工作。
asf自己的s3客户机s3a不能作为替代品。我们的团队致力于将读写性能作为数据的来源和最终目的地;在s3guard中,添加dynamo层和s3guard提交程序,使其能够作为高性能的工作目标(在避免rename()的同时对故障具有弹性)。
您正在编写的新的分布式文件系统能否用作hdfs的替代品?
好吧,你当然可以试试!
首先让所有的文件系统契约测试开始工作,这些测试度量基本的api遵从性。然后看看所有的apachebigtop测试,它们进行系统集成。我建议你一开始就避免使用hbase和acumulo,重点放在:mapreduce、hive、spark、flink。
不要害怕进入hadoop常见的dev和bigtop列表并提出问题。
2vuwiymt2#
下面是您必须实现的接口,关注您必须支持的保证。有一个工具可以测试合同。如果您需要一个例子,hadoop中有大量不同系统的实现,例如s3/azureblobs/ftp,它们是一个很好的起点。
您可以按类配置文件系统实现,所有组件都应遵循
fs.defaultFS
作为配置密钥。vql8enpb3#
yarn并不是分布式集群的唯一资源管理器。apachemesos与资源管理器类似(但内部技术不同)。它不依赖于hadoop组件。在企业云基础设施中,已经有许多用途,如dc/os(由mesos、docker等组成)
z9zf31ra4#
是的,只要您有一个支持hdfsapi的文件存储实现,就可以。
例如,您可以使用aws s3(s3n://或s3a://)而不是hdfs。很少有其他文件系统支持hdfsapi。
6qqygrtg5#
Yarn无需hdfs即可使用。您不必配置和启动hdfs服务,因此它将在没有hdfs的情况下运行。
但是没有hadoop就不能安装yarn。您必须下载hadoop并只配置yarn(以及您想要使用的其他服务)。