我想从一个包含100个文件的目录中加载每个迭代中的前10个xml文件,并将已经读取的xml文件删除到另一个目录中。
我在Pypark的尝试。
li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li)
df1.show()
但我得到了一个错误:illegalargumentexception:必须为xml数据指定“path”。
在将xml文件的完整路径存储到列表中之后,是否有任何方法可以读取文件?或者请建议另一种方法。
暂无答案!
目前还没有任何答案,快来回答吧!