如何将xml文件从hdfs加载到hbase表

qmelpv7a  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(381)

我在hdfs中有一个xml文件,我想将这些xml文件加载到hbase表中。
我提到了一些链接,它们使用map reduce选项将xml数据加载到hbase中,是否有其他选项可以直接加载到hbase表中。

xzv2uavs

xzv2uavs1#

我给出了使用input3.xml文件将pig加载到hbase的示例。

=== input3.xml =====
<document>   
<url>htp://www.abc.com/</url>
<category>Sports</category>
<usercount>120</usercount>
<reviews>    
<review>good site</review>
<review>This is Avg site</review>
<review>Bad site</review>
</reviews>
</document>

A = LOAD'input3.xml' using 
   org.apache.pig.piggybank.storage.XMLLoader('document').HBaseStorage as 
   (data:chararray);

 B = foreach A GENERATE FLATTEN(REGEX_EXTRACT_ALL(data,'(?s)<document>.*?<url> 
 ([^>]*?)</url>.*?<category>([^>]*?)</category>.*?<usercount>([^>]*?)</usercount>.*? 
  <reviews>.*?<review>\\s*([^>]*?)\\s*</review>.*?</reviews>.*?</document>')) as 
  (url:chararray,catergory:chararray,usercount:int,review:chararray);

相关问题