hadoop在pig中的包&元组模式

fnvucqvd  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(335)

我试着用jsonload为一些我要加载的数据指定模式,我要上传的数据的格式是

Features:["Speedy","New","Automatic",..]

对于每个记录,功能的数量不是固定的,它可以是不同的。我在模式中表示为:

Features: bag{a: tuple(t:chararray)}

但是它不起作用。有人能帮我找出正确的语法并指出我错的地方吗。

slhcrj9b

slhcrj9b1#

字段名规范是不必要的,因为您有一个没有任何字段名的简单数组。试试这个:

a = load 'a.json' using JsonLoader('value:int,feature:{(chararray)}');

json文件:

{"value":1, "feature":[1, 2, 3] }
{"value":2, "feature":[2,3,4]}
{"value":3, "feature":[12,13,14]}
{"value":4, "feature":[2]}

输出:

(1,{(1),(2),(3)})
(2,{(2),(3),(4)})
(3,{(12),(13),(14)})
(4,{(2)})

相关问题