sparkDataframe的最小划分

58wvjzkj 于 2021-05-26 发布在 Spark

关注(0)|答案(1)|浏览(374)

有人能帮助我理解如何在读取sparksql中的每个文件时更改max partition byte配置以启用至少2个分区（因此每个dataframe 2在读取给定的数据文件时应该至少有4个分区）？

DataFrame apache-spark pyspark apache-spark-sql data-science

来源：https://stackoverflow.com/questions/64020463/minimum-partitions-of-spark-dataframe

1条答案

按热度按时间

rvpgvaaj1#

“maxpartitionbytes”选项提供存储在分区中的字节数。默认值为128 mb。如果可以根据要加载的文件大小操纵默认容量，那么最小分区数将相应地更改。例如，如果加载一个90MB的文件，那么将创建一个分区。如果使用以下功能更改配置，
sparkconf（）.set（“spark.sql.files.maxpartitionbytes”，“”）
并将字节数更改为52428800（50 mb），即sparkconf（）.set（“spark.sql.files.maxpartitionbytes”，52428800），则分区大小的最大容量将减小，并将创建2个分区。
在括号中，您必须将存储量以“字节”为单位。

赞(0）回复(0）举报 2021-05-26

我来回答

sparkDataframe的最小划分

1条答案

相关问题

热门标签

最新问答