PySpark无法覆盖S3中的CSV

qgelzfjb  于 2022-09-21  发布在  Spark
关注(0)|答案(1)|浏览(185)

当我尝试将S3中的文件作为CSV写入时,我遇到了问题。我基本上是在尝试覆盖S3文件夹中现有的单个CSV文件。下面是我正在运行的代码片段。

我正在跌倒在错误之下。我的猜测是,这是因为S3文件夹中存在单个文件。在覆盖它时,首先删除现有文件,这会进一步删除S3文件夹,因为其中没有文件。然后它无法创建文件,因为不存在具有给定名称的文件夹。因此,整个覆盖失败。

任何帮助解决这个问题的人都将不胜感激。

sg2wtvxw

sg2wtvxw1#

所以这个问题没有解决,不得不做变通工作。似乎这个问题不是S3的问题,而是Spark的问题。一旦您使用Spark读取CSV,在您读取其他CSV之前,您无法覆盖相同的CSV。

解决办法如下所示:

1.从根目录/myFolder中读取
1.进行数据转换
1.将数据写转换到根/mytemp文件夹中
1.从根目录/mytemp文件夹读取
1.写入根目录/myFolders

相关问题