如何将pyspark中的代码结果保存为csv文件,如何知道路径?

lsmd5eda  于 2023-09-27  发布在  Spark
关注(0)|答案(1)|浏览(143)

我已经写了一个使用Pyspark的Databricks代码,我需要将生成的dataframe保存为csv文件。我在工作区下创建了一个名为“Output”的文件夹,并运行了以下代码:

\>\>df.write.csv('dbfs:/Workspace/Users/my_account/Output/myfile')

当我查看输出文件夹时,我没有找到任何csv文件。我是不是走错路了?我该怎么做?
我上面给的路径是从文件夹中复制的,右键单击并复制路径选项。有人能帮助我如何在Databricks中使用此功能吗?我应该说我不是管理员,所以我没有访问其他目录/文件夹,除了从我的工作区

5ssjco0h

5ssjco0h1#

如果在URI中使用dbfs:,则数据将写入Databricks文件系统,可能是DBFS Root。您可以使用以下命令检查是否使用单独的单元格写入数据:

%fs ls dbfs:/Workspace/Users/my_account/Output/myfile

但我认为您打算将数据写回工作区本身,但这不是最好的做法,因为它不是真实的的文件系统(doc)。这将给控制平面带来很大的压力,并且对可以执行的操作和文件大小有一些限制。如有必要,您可以在使用DBFS编写文件后将其放入工作区-只需这样做,但首先检查文件大小:

%sh cp /dbfs/Workspace/Users/my_account/Output/myfile/*.csv /Workspace/Users/my_account/Output/myfile/

相关问题