PySpark无法覆盖S3中的CSV

qgelzfjb 于 2022-09-21 发布在 Spark

关注(0)|答案(1)|浏览(185)

当我尝试将S3中的文件作为CSV写入时，我遇到了问题。我基本上是在尝试覆盖S3文件夹中现有的单个CSV文件。下面是我正在运行的代码片段。

我正在跌倒在错误之下。我的猜测是，这是因为S3文件夹中存在单个文件。在覆盖它时，首先删除现有文件，这会进一步删除S3文件夹，因为其中没有文件。然后它无法创建文件，因为不存在具有给定名称的文件夹。因此，整个覆盖失败。

任何帮助解决这个问题的人都将不胜感激。

1条答案

所以这个问题没有解决，不得不做变通工作。似乎这个问题不是S3的问题，而是Spark的问题。一旦您使用Spark读取CSV，在您读取其他CSV之前，您无法覆盖相同的CSV。

解决办法如下所示：

1.从根目录/myFolder中读取
1.进行数据转换
1.将数据写转换到根/mytemp文件夹中
1.从根目录/mytemp文件夹读取
1.写入根目录/myFolders