我有一个带有3个工作节点的spark集群,当我尝试从hdfs加载csv文件时,它只利用系统上的资源(cpu和内存),我通过spark shell(使用的主节点)加载csv
加载Dataframe
val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")
对Dataframe执行一些操作
df.agg(sum("failure")).show
当我加载csv时,系统内存增加了1.3gb,这是hdfs文件大小和100%的cpu使用率。工人的cpu闲置率接近0%,内存使用率没有变化。理想的情况下,我希望所有的重担都是由工人来完成的,而这是不可能的。
1条答案
按热度按时间qyyhg6bp1#
将spark mode设置为cluster可以解决您的问题。看起来您的作业正在客户端模式下运行。