我想在spark上读取一个非常大的xml文件数据集(每个xml文件大小=1tb),然后开始对每个文件的解析过程,以便最终得到csv文件作为表。
我知道我们可以在hadoop中使用streamxmlrecordreader并处理xml,然后使用spark的hdfs中的xml数据块,也可以使用databricks的spark xml库,使用java mahout xmlinputformat(hadoop)解析xml,有人说对于大的xml文件,hadoop方法更好,所以需要知道解决这个问题的最佳方法
暂无答案!
目前还没有任何答案,快来回答吧!