connectspark在cdh5.4中的应用

7eumitmz  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(264)

我试图理解连接到远程服务器的“概念”。我在centos上有4台服务器使用cdh5.4我想做的是在所有这四个节点上连接spark on yarn。我的问题是我不明白如何设置hadoop\u conf\u dir。我应该在哪里为这个变量设置什么值?然后我需要在所有四个节点上设置这个变量,还是只有主节点就足够了?
文档中说“确保hadoop\u conf\u dir或yarn\u conf\u dir指向包含hadoop集群的(客户端)配置文件的目录”。在这里提问之前,我读过很多类似的问题。请让我知道我能做些什么来解决这个问题。我能够在所有节点上以独立模式运行spark和pyspark。
谢谢你的帮助。灰烬

ctzwtxfj

ctzwtxfj1#

我应该在哪里为这个变量设置什么值?
变量hadoop\ u conf\ u dir应该指向包含yarn-site.xml的目录。通常你把它放进去 ~/.bashrc . 我找到了cdh的文档。http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-project-dist/hadoop-common/clustersetup.html
基本上所有节点都需要有由环境变量指向的配置文件。
完成所有必要的配置后,将文件分发到所有计算机上的hadoop\u conf\u dir目录

相关问题