我正在使用pyspark(没有hadoop等的单机版),并在下面调用我的pyspark作业,它运行良好:
PYSPARK_PYTHON=python3 JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64/jre" SPARK_HOME=~/.local/lib/python3.6/site-packages/pyspark spark-submit job.py --master local
历史服务器正在运行,但我正在尝试配置spark历史服务器以读取正确的目录。我配置的设置在/pyspark/conf/spark-env.sh中:
....
SPARK_HISTORY_OPTS="$SPARK_HISTORY_OPTS -Dspark.eventLog.enabled=true -Dspark.eventLog.dir=/home/Documents/Junk/logs/ -Dspark.history.fs.logDirectory=/home/Documents/Junk/logs"
....
但是当我运行作业时,这个目录是空的(没有写入这个目录的日志)
我是否正确指定了目录地址(这些是我的文件系统中的本地地址)
1条答案
按热度按时间kq4fsx7k1#
要使其工作,请执行以下操作。不要使用spark-env.sh,而是使用以下命令编辑conf/spark-defaults.conf文件,注意文件://前缀。