我有一个示例json文件
{“type”:“chrome”,“url”:www.example1.com“,”host“:”host1“,”referer“:”www.reference1.com“}{”type“:”firefox“,”url“:”www.example1.com“,”host“:”host1“,”referer“:”www.reference2.com“}{”type“:”chrome“,”url“:”www.example2.com“,”host“:”host2“}
在上面的json中,referer字段并非在所有记录中都可用。它可能可用,也可能不可用。如何用Pig拉丁语处理它们。
如果这些字段在json中是统一的,并且对所有记录都可用,那么下面的脚本将能够处理它们删除了没有referer字段的记录)
register '/usr/local/pig/contrib/piggybank/java/piggybank.jar';
record = LOAD 'piginput/file.json'
USING JsonLoader('type:chararray,url:chararray,host:chararray,referer:chararray');
GroupByhttp = GROUP record BY (referer,type);
CountByhttp = FOREACH GroupByhttp
GENERATE group,COUNT(record);
STORE CountByhttp
INTO 'pig_output';
请指点!!
暂无答案!
目前还没有任何答案,快来回答吧!