如何使用Pyspark在ADLS中写入.csv文件

u3r8eeie 于 2022-11-21 发布在 Spark

关注(0)|答案(2)|浏览(154)

我正在从 ADLS 读取 json 文件，然后通过将扩展名更改为 . csv 将其写回 ADLS ，但在 ADLS 中创建了一些随机文件名（在 Azure Synapse 中编写脚本）
One _ success 文件和 part - 000 - * * * . csv 类似于此的一些随机文件名正在生成
我希望将文件名保存为 ex ：sfmc.json 它应该以 sfmc.csv 的形式写入 adls 中

pyspark

来源：https://stackoverflow.com/questions/74342180/how-to-write-csv-file-in-adls-using-pyspark

2条答案

按热度按时间

dphi5xsq1#

这就是 spark 中不同分区的数据持久化的方式。你可以使用 databricks fs 工具来重命名文件。
我写了一个小的实用程序函数来收集一个分区上的所有数据，作为 parquet 持久化，并重命名文件夹中唯一的数据文件。您可以将其用于 JSON 或 CSV 。该实用程序接受文件夹路径和文件名，创建一个 " tmp " 文件夹用于持久化，然后将文件移动并重命名到所需的文件夹：

def export_spark_df_to_parquet(df, dir_dbfs_path, parquet_file_name):
  tmp_parquet_dir_name = "tmp"
  tmp_parquet_dir_dbfs_path = dir_dbfs_path + "/" + tmp_parquet_dir_name
  parquet_file_dbfs_path = dir_dbfs_path + "/" + parquet_file_name
  
  # Export dataframe to Parquet
  df.repartition(1).write.mode("overwrite").parquet(tmp_parquet_dir_dbfs_path)
  listFiles = dbutils.fs.ls(tmp_parquet_dir_dbfs_path)
  for _file in listFiles:
    if len(_file.name) > len(".parquet") and _file.name[-len(".parquet"):] == ".parquet":
      dbutils.fs.cp(_file.path, parquet_file_dbfs_path)
      break

中的每一个
用法：

export_spark_df_to_parquet(df, "dbfs:/my_folder", "my_df.parquet")

格式

展开查看全部

赞(0）回复(0）举报 2022-11-21

bqucvtff2#

Spark不允许按要求命名文件。它会生成随机文件名的部分文件。当我使用df.write（其中df是spark Dataframe ）时，我得到一个随机生成的文件名。

如果你想生成一个特定名称的文件名，你必须使用Pandas，使用toPandas()将spark Dataframe 转换为Pandas Dataframe ，然后使用to_csv()方法保存文件（考虑csv作为所需的文件格式）。

pdf = df.toPandas()
pdf.to_csv("abfss://data@datalk0711.dfs.core.windows.net/output/output.csv")

运行上述代码生成了具有所需文件名的所需文件。

赞(0）回复(0）举报 2022-11-21

我来回答

如何使用Pyspark在ADLS中写入.csv文件

2条答案

相关问题

热门标签

最新问答