有人能帮助我理解如何在读取sparksql中的每个文件时更改max partition byte配置以启用至少2个分区(因此每个dataframe 2在读取给定的数据文件时应该至少有4个分区)?
rvpgvaaj1#
“maxpartitionbytes”选项提供存储在分区中的字节数。默认值为128 mb。如果可以根据要加载的文件大小操纵默认容量,那么最小分区数将相应地更改。例如,如果加载一个90MB的文件,那么将创建一个分区。如果使用以下功能更改配置,sparkconf().set(“spark.sql.files.maxpartitionbytes”,“”)并将字节数更改为52428800(50 mb),即sparkconf().set(“spark.sql.files.maxpartitionbytes”,52428800),则分区大小的最大容量将减小,并将创建2个分区。在括号中,您必须将存储量以“字节”为单位。
1条答案
按热度按时间rvpgvaaj1#
“maxpartitionbytes”选项提供存储在分区中的字节数。默认值为128 mb。如果可以根据要加载的文件大小操纵默认容量,那么最小分区数将相应地更改。例如,如果加载一个90MB的文件,那么将创建一个分区。如果使用以下功能更改配置,
sparkconf().set(“spark.sql.files.maxpartitionbytes”,“”)
并将字节数更改为52428800(50 mb),即sparkconf().set(“spark.sql.files.maxpartitionbytes”,52428800),则分区大小的最大容量将减小,并将创建2个分区。
在括号中,您必须将存储量以“字节”为单位。