具有特定分区号的apache spark read parquet

kcrjzv8t  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(426)

我有506个分区的Parquet数据。它的大小是6.8gb。
如果我只是阅读 spark.read.parquet(<file>) ,我要150个分区。
我知道我可以 spark.sql.files.maxPartitionBytes (Spark-17998)
但即使我把值设为 1G ,仍为150分区。

我的问题

我怎样才能看小隔断的Parquet地板(如partitionnum=5)(否 coalesce / repartition )
150这个数字是从哪里来的? 50G / 128M = 400 不是150
我的环境
Spark3.0.1
128芯

8qgya5xd

8qgya5xd1#

对于您的问题:
阅读Parquet地板并使用, df.coalesce() .
看一看 spark.sql.shuffle.partitions 选项。
如果你想了解更多的信息,来源。

相关问题