我正在阅读以下不同的数据集
val df1 = spark.read.load('loc1')
val df2 = spark.read.load('loc2')
创建的分区数为,
df1.rdd.getnumpartitions=>5000
df2.rdd.getnumpartitions=>334
我知道这是基于数据的属性。但对于这两项工作,创建的任务数都是400个。以下作业0和2:
400这个常数是从哪里来的?
这是用于生成spark shell的配置:
spark-shell-2.4.3--驱动程序内存20g--执行器内存20g--num executors 200--执行器内核2--名称spark\u shell--队列默认值--conf spark.yarn.executor.memoryoverhead=2g
暂无答案!
目前还没有任何答案,快来回答吧!