我们如何从apachespark读取非常大的xml文件?

7hiiyaii  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(324)

我想在spark上读取一个非常大的xml文件数据集(每个xml文件大小=1tb),然后开始对每个文件的解析过程,以便最终得到csv文件作为表。
我知道我们可以在hadoop中使用streamxmlrecordreader并处理xml,然后使用spark的hdfs中的xml数据块,也可以使用databricks的spark xml库,使用java mahout xmlinputformat(hadoop)解析xml,有人说对于大的xml文件,hadoop方法更好,所以需要知道解决这个问题的最佳方法

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题