从pyspark dataframe中包含100个文件的目录中加载前10个xml文件

8ulbf1ek  于 2021-07-09  发布在  Spark
关注(0)|答案(0)|浏览(207)

我想从一个包含100个文件的目录中加载每个迭代中的前10个xml文件,并将已经读取的xml文件删除到另一个目录中。
我在Pypark的尝试。

li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li) 
df1.show()

但我得到了一个错误:illegalargumentexception:必须为xml数据指定“path”。
在将xml文件的完整路径存储到列表中之后,是否有任何方法可以读取文件?或者请建议另一种方法。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题