A = load '/path of the file' using org.apache.pig.piggybank.storage.XMLLoader('parent_tag') as (x:chararray);
B = foreach A generate REPLACE(x,'[\\n]','') as x;
在此之后,您需要使用regex\u extract\u all来提取标记之间的数据
C = foreach B generate REGEX_EXTRACT_ALL(x,'.*(?:<child_tag1>)([^<]*).*(?:<child_tag2>)([^<]*).*');
2条答案
按热度按时间svmlkihl1#
您可以使用regex\u extract()从标记中获取信息,也可以使用substring()和regex\u extract\u all。
f87krz0w2#
piggybankjar在pig中提供了xml加载器
在pig的load语句中,需要使用xmloader进行加载。你需要适当提及你的父母标签。
在此之后,您需要使用regex\u extract\u all来提取标记之间的数据
有关更多详细信息,请参阅下面的链接
https://acadgild.com/blog/converting-xml-into-csv-using-pig/