**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。
三年前关门了。
改进这个问题
我需要一些关于如何使用cloudera docker容器运行mapreduce程序/作业的帮助。
我使用的是linux(elementaryos)高配置。笔记本电脑(24gb ram,i7处理器)。
我能够安装cloudera docker映像,运行它,并完成了以下操作,没有问题:
1看到#prompt并运行hdfs命令(hadoop fs-ls),尽管它没有返回任何内容。
2能够访问色调编辑器
三。能够运行cloudera manager并启动所有服务(一切)。
4.在本地环境中,我可以创建一个wordcount mapreduce程序(jar),下载该程序的所有maven依赖项(不在docker容器中)。
现在我的问题是:
如何将这个wordcountjar提交到运行docker容器?
如何使用上载的文本文件(hdfs)运行这个mapreduce程序/作业(wordcount)?
1条答案
按热度按时间7gs2gvoe1#
如果用8888端口的端口Map启动容器,则可以访问包含文件浏览器的hue。因此,您将能够轻松地将hdfs文件放入集群中。
要启动map/reduce作业,您需要将jar复制到容器中,因为cloudera在其容器中没有提供任何卷(至少,这里没有记录:http://www.cloudera.com/documentation/enterprise/latest/topics/quickstart_docker_container.html)这很有挑战性。也许你可以尝试通过scp添加它。
我自己创建了一些cloudera容器,我按节点类型(masternode、datanode、edgenode)提供了一个容器,我只是在edgenode中添加了一个卷,正如iy提供的那样。您可以在docker hub中找到我的容器:https://hub.docker.com/r/loicmathieu/cloudera-cdh-edgenode/