陷入了关于pyspark的起步阶段--主Yarn

31moq8wy  于 2021-07-15  发布在  Hadoop
关注(0)|答案(0)|浏览(337)

我对Yarn上的Spark有问题。步骤如下:
确保spark standalone未运行: $./stop-all.sh 确保hadoop\u conf\u dir环境变量是在客户机节点的~/.bashrc中设置的。

  1. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

配置yarn-site.xml以支持运行spark程序

  1. <configuration>
  2. <property>
  3. <name>yarn.nodemanager.vmem-check-enabled</name>
  4. <value>false</value>
  5. </property>
  6. </configuration>

配置yarn-env.sh

  1. export JAVA_HOME=/home/spark/jdk1.8.0_251
  2. export PATH=$JAVA_HOME/bin:$PATH
  3. export HADOOP_HOME=/home/spark/hadoop-2.10.1
  4. export PATH=$HADOOP_HOME/bin:$PATH
  5. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  6. export ANACONDA_HOME=/home/spark/anaconda3
  7. export PATH=$ANACONDA_HOME/bin:$PATH

把Spark相关的程序,需要用在Yarn上的hdfs

  1. hadoop fs -mkdir /user/spark/spark-2.4.5-bin-hadoop2.7
  2. hadoop fs -put ~/spark-2.4.5-bin-hadoop2.7/jars spark-2.4.5-bin-hadoop2.7

配置spark-defaults.conf并指定需要在yarn上使用的spark相关程序

  1. spark.yarn.jars hdfs://devenv/user/${USER}/spark-2.4.5/jars/*

启动并检查web控制台

  1. ./start-yarn.sh

我可以看到网络上的Yarn http://username:8088 测试并运行一些spark程序

  1. pyspark --master yarn

但当我尝试在Yarn上启动spark时,它陷入了这样一种奇怪的情况:

这是我在user.bashrc中的设置:

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题