我有一个dataframe,我想保存为多个xml文件。下面是我的代码:
employees
.repartition(col("first_name"))
.write()
.option("maxRecordsPerFile", 5)
.mode(SaveMode.Overwrite)
.partitionBy("first_name")
.format("xml")
.save("C:/spark_output/");
字符串
我期望输出看到这样的输出:
spark_output/
first_name=Alex
part-00000.xml
part-00001.xml
first_name=Mike
part-00000.xml
part-00001.xml
first_name=Nicole
part-00000.xml
part-00001.xml
型
但是输出包含只有一个10行的文件。
我不明白这是怎么回事?我该如何解决此问题?
任何建议将不胜感激。谢啦,谢啦
1条答案
按热度按时间xlpyo6sf1#
spark-xml(Databricks的开源XML数据接收器)不支持
.partitionBy
,并且似乎不在GitHub项目的路线图上https://github.com/databricks/spark-xml/issues/327