hadoop中的docker应用支持

tzxcd3kk  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(247)

我需要处理一大组(太字节)的数据(主要是图像)。我在考虑使用hadoopyarn和hdfs来处理这些数据。其思想是将所有数据摄取到hdfs中,然后提交hadoop作业来处理数据。yarn将在数据附近部署处理应用程序,并对其进行处理。如果我的处理应用程序是一个“jar”文件,这就可以了。如果我的图像处理应用程序是docker图像,是否可以向yarn提交作业,以便提交的应用程序是docker图像(而不是jar文件)?yarn必须在数据节点中部署应用程序(docker映像)才能开始处理。
我检查了docker container executor,但它在docker容器中启动了yarn容器,并且应用程序(作业)仍然是一个jar文件,如上面的链接所示。
googlekubernetes似乎符合我的需要(在集群中部署和管理docker映像),但它没有提供“hdfs式”存储(因此“将应用程序移动到数据而不是数据移动到应用程序”不合适)。
请告诉我是否有任何集群管理器框架可以在集群中部署标准应用程序包(如jar、rpm、docker容器)来访问共享/分布式数据存储。
提前谢谢。

vyswwuz2

vyswwuz21#

目前Yarn中的docker执行器不是很好,因为,afaik,您需要替换整个执行器,至少在引入时是集群范围的设置。
hw正在做一些关于docker的事情http://hortonworks.com/blog/docker-kubernetes-apache-hadoop-yarn/. 你没有提到那个博客,所以我把它贴在这里。

相关问题