xpath—在hadoop中处理复杂xml以提取数据

jhkqcmku  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(330)

我想在hadoop中处理格式化的xml,它非常复杂和庞大,而且还包含循环。
我尝试了以下选项:
将XML作为单个列加载到配置单元中,并使用xpath查询。
使用serde创建配置单元表。
使用xmlloader使用pig加载Xml。
选项1是可能的,但是在获取xml中非常深入的数据时会变得很困难。
对于选项2和3,hive-serde和pig-loader需要显式定义模式,因此无法完成。
还有别的办法吗?

qoefvg9y

qoefvg9y1#

可以使用pig和pig udf从xml文件提取数据。要提取数据,可以使用正则表达式或xpath。可以使用piggybank执行多个操作。

相关问题