我对sparkDataframe分区数有疑问。
如果我有一个配置单元表(employee),它包含列(name、age、id、location)。 CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String);
如果employee表有10个不同的位置。因此,数据将在hdfs中划分为10个分区。
如果我通过读取配置单元表(employee)的全部数据来创建sparkDataframe(df)。
spark将为一个Dataframe(df)创建多少个分区?
df.rdd.partitions.size=??
1条答案
按热度按时间x6492ojm1#
分区是根据hdfs的块大小创建的。
假设您已将10个分区作为单个rdd读取,如果块大小为128mb,则
分区数=(大小(10个分区,以MB为单位))/128mb
将存储在hdfs上。
请参考以下链接:
http://www.bigsynapse.com/spark-input-output