在spark中读取Parquet数据时创建了多少个任务

toiithl6 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(345)

我正在阅读以下不同的数据集

val df1 = spark.read.load('loc1')
val df2 = spark.read.load('loc2')

创建的分区数为，
df1.rdd.getnumpartitions=>5000
df2.rdd.getnumpartitions=>334
我知道这是基于数据的属性。但对于这两项工作，创建的任务数都是400个。以下作业0和2：

400这个常数是从哪里来的？
这是用于生成spark shell的配置：
spark-shell-2.4.3--驱动程序内存20g--执行器内存20g--num executors 200--执行器内核2--名称spark\u shell--队列默认值--conf spark.yarn.executor.memoryoverhead=2g