在pig拉丁语中处理非统一json

mspsb9vt  于 2021-06-21  发布在  Pig
关注(0)|答案(0)|浏览(171)

我有一个示例json文件
{“type”:“chrome”,“url”:www.example1.com“,”host“:”host1“,”referer“:”www.reference1.com“}{”type“:”firefox“,”url“:”www.example1.com“,”host“:”host1“,”referer“:”www.reference2.com“}{”type“:”chrome“,”url“:”www.example2.com“,”host“:”host2“}
在上面的json中,referer字段并非在所有记录中都可用。它可能可用,也可能不可用。如何用Pig拉丁语处理它们。
如果这些字段在json中是统一的,并且对所有记录都可用,那么下面的脚本将能够处理它们删除了没有referer字段的记录)

register '/usr/local/pig/contrib/piggybank/java/piggybank.jar';
record = LOAD 'piginput/file.json' 
USING JsonLoader('type:chararray,url:chararray,host:chararray,referer:chararray');
GroupByhttp = GROUP record BY (referer,type);
CountByhttp = FOREACH GroupByhttp 
GENERATE group,COUNT(record);
STORE CountByhttp
INTO 'pig_output';

请指点!!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题