在spark中读取Parquet数据时创建了多少个任务

toiithl6  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(345)

我正在阅读以下不同的数据集

val df1 = spark.read.load('loc1')
val df2 = spark.read.load('loc2')

创建的分区数为,
df1.rdd.getnumpartitions=>5000
df2.rdd.getnumpartitions=>334
我知道这是基于数据的属性。但对于这两项工作,创建的任务数都是400个。以下作业0和2:

400这个常数是从哪里来的?
这是用于生成spark shell的配置:
spark-shell-2.4.3--驱动程序内存20g--执行器内存20g--num executors 200--执行器内核2--名称spark\u shell--队列默认值--conf spark.yarn.executor.memoryoverhead=2g

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题