repartition不工作与xml文件在Spark

pepwfjgg  于 2023-08-06  发布在  Apache
关注(0)|答案(1)|浏览(138)

我有一个dataframe,我想保存为多个xml文件。下面是我的代码:

employees
                .repartition(col("first_name"))
                .write()
                .option("maxRecordsPerFile", 5)
                .mode(SaveMode.Overwrite)
                .partitionBy("first_name")
                .format("xml")
                .save("C:/spark_output/");

字符串
我期望输出看到这样的输出:

spark_output/
  first_name=Alex
    part-00000.xml
    part-00001.xml
  first_name=Mike
    part-00000.xml
    part-00001.xml
  first_name=Nicole
    part-00000.xml
    part-00001.xml


但是输出包含只有一个10行的文件
我不明白这是怎么回事?我该如何解决此问题?
任何建议将不胜感激。谢啦,谢啦

xlpyo6sf

xlpyo6sf1#

spark-xml(Databricks的开源XML数据接收器)不支持.partitionBy,并且似乎不在GitHub项目的路线图上
https://github.com/databricks/spark-xml/issues/327

相关问题