通过从配置单元表读取数据而创建的sparkDataframe的分区数

sczxawaw  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(311)

我对sparkDataframe分区数有疑问。
如果我有一个配置单元表(employee),它包含列(name、age、id、location)。 CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String); 如果employee表有10个不同的位置。因此,数据将在hdfs中划分为10个分区。
如果我通过读取配置单元表(employee)的全部数据来创建sparkDataframe(df)。
spark将为一个Dataframe(df)创建多少个分区?
df.rdd.partitions.size=??

x6492ojm

x6492ojm1#

分区是根据hdfs的块大小创建的。
假设您已将10个分区作为单个rdd读取,如果块大小为128mb,则
分区数=(大小(10个分区,以MB为单位))/128mb
将存储在hdfs上。
请参考以下链接:
http://www.bigsynapse.com/spark-input-output

相关问题