apachespark中的java解析xml数据

b1zrtrql 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(480)

我需要知道如何在spark中解析xml文件。我正在接收来自Kafka的流数据，然后需要解析这些流数据。
这是我接收数据的spark代码：

directKafkaStream.foreachRDD(rdd ->{
            rdd.foreach(s ->{
                System.out.println("&&&&&&&&&&&&&&&&&" +s._2 );
            });

结果：

<root>
<student>
<name>john</name>
<marks>90</marks>
</student>
</root>

如何传递这些xml元素？

Java hadoop streaming apache-spark xml

来源：https://stackoverflow.com/questions/39696700/parse-xml-data-in-apache-spark

2条答案

按热度按时间

nhjlsmyf1#

在处理流数据时，使用databricks的sparkxmllib进行xml数据处理会很有帮助。
参考文献：https://github.com/databricks/spark-xml

赞(0）回复(0）举报 2021-06-03

6yoyoihd2#

谢谢你们。。问题解决了。这是解决办法。

String xml = "<name>xyz</name>";
DOMParser parser = new DOMParser();
try {
    parser.parse(new InputSource(new java.io.StringReader(xml)));
    Document doc = parser.getDocument();
    String message = doc.getDocumentElement().getTextContent();
    System.out.println(message);
} catch (Exception e) {
    // handle SAXException 
}

赞(0）回复(0）举报 2021-06-03

我来回答

apachespark中的java解析xml数据

2条答案

相关问题

热门标签

最新问答