这是how to save dataframe into csv pyspark线程的延续。
我正在尝试将我的pyspark Dataframe df保存到pyspark 3.0.1中。所以我写了
df.coalesce(1).write.csv('mypath/df.csv)
字符串
但是在执行这个命令后,我看到我的路径中有一个名为df.csv的文件夹,其中包含4个以下文件
1._committed_..
2._started_...
3._Success
4. part-00000-.. .csv
型
你能建议我如何保存所有数据在df.csv
?
2条答案
按热度按时间xa9qqrwz1#
您可以使用
.coalesce(1)
将文件保存在一个csv分区中,然后重命名此csv并将其移动到所需的文件夹中。下面是一个实现此功能的函数:
df
:您的dffileName
:您要为csv文件指定的名称filePath
:您要保存的文件夹字符串
bpzcxfmw2#
如果你想得到一个名为
df.csv
的文件作为输出,你可以先写入一个临时文件夹,然后移动Spark生成的零件文件并重命名它。这些步骤可以通过JVM网关使用Hadoop FileSystem API完成:
字符串