我有506个分区的Parquet数据。它的大小是6.8gb。
如果我只是阅读 spark.read.parquet(<file>)
,我要150个分区。
我知道我可以 spark.sql.files.maxPartitionBytes
(Spark-17998)
但即使我把值设为 1G
,仍为150分区。
我的问题
我怎样才能看小隔断的Parquet地板(如partitionnum=5)(否 coalesce
/ repartition
)
150这个数字是从哪里来的? 50G / 128M = 400
不是150
我的环境
Spark3.0.1
128芯
1条答案
按热度按时间8qgya5xd1#
对于您的问题:
阅读Parquet地板并使用,
df.coalesce()
.看一看
spark.sql.shuffle.partitions
选项。如果你想了解更多的信息,来源。