spark如何创建从s3读取的对象的分区?
我在s3中有一个大小为118mb的对象。我把这个物体读入一个胶合动态框架。转换为sparkDataframe并应用了一些转换。然后将数据写回s3。输出文件夹由两个大小分别为51mb和39mb的对象组成。spark如何决定从s3读取的数据的分区方案?
代码如下:
df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF()
df = df.filter('student.year != "2005"')
df.write.mode("append").json(s3WritePath)
1条答案
按热度按时间l7wslrjt1#
从s3读取时,默认的分割大小是64mb。例如,对于以下3个文件,拆分如下: