sparkDataframe没有使用worker

wswtfjt7  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(342)

我有一个带有3个工作节点的spark集群,当我尝试从hdfs加载csv文件时,它只利用系统上的资源(cpu和内存),我通过spark shell(使用的主节点)加载csv
加载Dataframe

val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")

对Dataframe执行一些操作

df.agg(sum("failure")).show

当我加载csv时,系统内存增加了1.3gb,这是hdfs文件大小和100%的cpu使用率。工人的cpu闲置率接近0%,内存使用率没有变化。理想的情况下,我希望所有的重担都是由工人来完成的,而这是不可能的。

qyyhg6bp

qyyhg6bp1#

将spark mode设置为cluster可以解决您的问题。看起来您的作业正在客户端模式下运行。

相关问题