repartition不工作与xml文件在Spark

pepwfjgg 于 2023-08-06 发布在 Apache

关注(0)|答案(1)|浏览(138)

我有一个dataframe，我想保存为多个xml文件。下面是我的代码：

employees
                .repartition(col("first_name"))
                .write()
                .option("maxRecordsPerFile", 5)
                .mode(SaveMode.Overwrite)
                .partitionBy("first_name")
                .format("xml")
                .save("C:/spark_output/");

字符串
我期望输出看到这样的输出：

spark_output/
  first_name=Alex
    part-00000.xml
    part-00001.xml
  first_name=Mike
    part-00000.xml
    part-00001.xml
  first_name=Nicole
    part-00000.xml
    part-00001.xml

型
但是输出包含只有一个10行的文件。
我不明白这是怎么回事？我该如何解决此问题？
任何建议将不胜感激。谢啦，谢啦

apache-spark

来源：https://stackoverflow.com/questions/76691542/repartition-not-working-with-xml-file-in-spark