我想在hadoop中处理格式化的xml,它非常复杂和庞大,而且还包含循环。我尝试了以下选项:将XML作为单个列加载到配置单元中,并使用xpath查询。使用serde创建配置单元表。使用xmlloader使用pig加载Xml。选项1是可能的,但是在获取xml中非常深入的数据时会变得很困难。对于选项2和3,hive-serde和pig-loader需要显式定义模式,因此无法完成。还有别的办法吗?
qoefvg9y1#
可以使用pig和pig udf从xml文件提取数据。要提取数据,可以使用正则表达式或xpath。可以使用piggybank执行多个操作。
1条答案
按热度按时间qoefvg9y1#
可以使用pig和pig udf从xml文件提取数据。要提取数据,可以使用正则表达式或xpath。可以使用piggybank执行多个操作。