从pyspark dataframe中包含100个文件的目录中加载前10个xml文件

8ulbf1ek 于 2021-07-09 发布在 Spark

关注(0)|答案(0)|浏览(207)

我想从一个包含100个文件的目录中加载每个迭代中的前10个xml文件，并将已经读取的xml文件删除到另一个目录中。
我在Pypark的尝试。

li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li) 
df1.show()

但我得到了一个错误：illegalargumentexception：必须为xml数据指定“path”。
在将xml文件的完整路径存储到列表中之后，是否有任何方法可以读取文件？或者请建议另一种方法。

python apache-spark pyspark apache-spark-xml

来源：https://stackoverflow.com/questions/66987467/load-first-10-xml-files-from-directory-containing-100-files-in-pyspark-dataframe

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

从pyspark dataframe中包含100个文件的目录中加载前10个xml文件

暂无答案！

相关问题

热门标签

最新问答