aws在写入时的粘合性能

31moq8wy 于 2021-07-09 发布在 Spark

关注(0)|答案(2)|浏览(382)

在执行连接和聚合之后，我希望输出在1个文件中，并基于某个列进行分区。当我使用重分区（1）时，作业占用的时间是1小时，如果我删除准备（1）则该文件将有多个分区，需要30分钟（请参阅下面的示例）。有没有办法把数据写入一个文件？？

...
...
df= df.repartition(1)
glueContext.write_dynamic_frame.from_options(
    frame = df,
    connection_type = "s3", 
    connection_options = {
        "path": "s3://s3path"
        "partitionKeys": ["choice"]
        }, 
    format = "csv",  
    transformation_ctx = "datasink2")

有没有其他方法可以提高写性能。改变格式有帮助吗？以及如何通过一个文件输出来实现并行性
s3存储示例


**if repartition(1)**// what I want but takes more time
choice=0/part-00-001
..
..
choice=500/part-00-001
**if removed**// takes less time but multiple files are present
choice=0/part-00-001
 ....
 choice=0/part-00-0032
..
..
choice=500/part-00-001
 ....
 choice=500/part-00-0032

apache-spark pyspark aws-glue

来源：https://stackoverflow.com/questions/66740193/aws-glue-performance-when-write

2条答案

按热度按时间

polkgigr1#

如果目标是只有一个文件，则使用合并而不是重新分区，这样可以避免数据混乱。

赞(0）回复(0）举报 2021-07-09

8tntrjer2#

而不是使用df.repartition（1）
使用df.repartition（“choice”）

df= df.repartition("choice")
glueContext.write_dynamic_frame.from_options(
    frame = df,
    connection_type = "s3", 
    connection_options = {
        "path": "s3://s3path"
        "partitionKeys": ["choice"]
        }, 
    format = "csv",  
    transformation_ctx = "datasink2")

赞(0）回复(0）举报 2021-07-09

我来回答

aws在写入时的粘合性能

2条答案

相关问题

热门标签

最新问答