通过从配置单元表读取数据而创建的sparkDataframe的分区数

sczxawaw 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(311)

我对sparkDataframe分区数有疑问。
如果我有一个配置单元表（employee），它包含列（name、age、id、location）。 CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String); 如果employee表有10个不同的位置。因此，数据将在hdfs中划分为10个分区。
如果我通过读取配置单元表（employee）的全部数据来创建sparkDataframe（df）。
spark将为一个Dataframe（df）创建多少个分区？
df.rdd.partitions.size=？？

Hive apache-spark-sql

来源：https://stackoverflow.com/questions/43886868/number-of-partitions-of-a-spark-dataframe-created-by-reading-the-data-from-hive