我试图加载一个模式主要是tsv(tab分隔值)的文件,但其中一个字段是json值。似乎pig latin有用于tab(或其他)分隔值的textloader,以及用于json的jsonloader。。。
特别是,每行数据的格式如下所示:
date\tevent_name\tevent_details\n
其中event\u details是json格式的字符串。其他的只是字符数组。
加载此数据的最简单方法是什么?
注意:我使用的是pig版本0.11.1。
我试图加载一个模式主要是tsv(tab分隔值)的文件,但其中一个字段是json值。似乎pig latin有用于tab(或其他)分隔值的textloader,以及用于json的jsonloader。。。
特别是,每行数据的格式如下所示:
date\tevent_name\tevent_details\n
其中event\u details是json格式的字符串。其他的只是字符数组。
加载此数据的最简单方法是什么?
注意:我使用的是pig版本0.11.1。
2条答案
按热度按时间bkhjykvo1#
(在做了大量的研究之后,答案是:)
从下载必要的库http://mvnrepository.com/ 寄存器命令所需。
Pig的脚本如下:
mhd8tkvw2#
mbells的答案很好,我一直在努力的一件事是如何检索Map值。下面是从事件Map检索key1、key2的示例。