我在awss3存储桶中存储了xml文件。我想提取xml元数据并加载到hdfs上的配置单元表中。有没有什么工具可以帮助加速这项活动?
cyej8jka1#
嗯,您可能需要使用hivexmlserde来读取xml文件或编写/使用能够理解xml的自定义udf。一些可能有用的参考资料:https://community.hortonworks.com/articles/972/hive-and-xml-pasring.htmlhttpshttp://github.com/dvasilen/hive-xml-serde/wiki/xml-data-sourceshttps://community.hortonworks.com/questions/47840/how-do-i-do-xml-string-parsing-in-hive.html
1条答案
按热度按时间cyej8jka1#
嗯,您可能需要使用hivexmlserde来读取xml文件或编写/使用能够理解xml的自定义udf。
一些可能有用的参考资料:https://community.hortonworks.com/articles/972/hive-and-xml-pasring.htmlhttpshttp://github.com/dvasilen/hive-xml-serde/wiki/xml-data-sourceshttps://community.hortonworks.com/questions/47840/how-do-i-do-xml-string-parsing-in-hive.html