pig avro：如何自定义avrostorage加载文件的方式

9rbhqvlz 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(300)

我有一个要求，我们需要自定义使用avrostorage在pig中加载文件的方式：
例如，我有一个具有以下模式的avro文件：

{"namespace": "avroColorCount",
 "type": "record",
 "name": "User2",
 "fields": [
     {"name": "name", "type": "string"},
     {"name": "content", "type" :  "bytes" }
 ]
}

现在，如果我使用下面的命令，它工作正常：

x = load 'sample.avro' USING AvroStorage() AS (name: chararray, content: bytearray);

但是，如果我只想加载“content”（第二列），我该怎么做呢？
如果我付出，

x = load 'sample.avro' USING AvroStorage() AS (content: bytearray);

它给了我一个错误：

ERROR 1031: Incompatable schema: left is "content:bytearray", right is "name: chararray, content: bytearray"

我知道这可以通过过滤器来完成。
但我们的要求是一步到位就可以得到第二列。
这可能吗？
提前谢谢。。。

hadoop avro apache-pig

来源：https://stackoverflow.com/questions/22325730/pig-avro-how-to-customize-the-way-the-avrostorage-loads-a-file

1条答案

按热度按时间

mrphzbgm1#

下面的代码解决了这个问题。。

x = LOAD 'sample.avro' USING AvroStorage('{"type":"record","name":"User2","fields":[{"name":"content","type":"bytearray"}]}');

赞(0）回复(0）举报 2021-06-04

我来回答

pig avro：如何自定义avrostorage加载文件的方式

1条答案

相关问题

热门标签

最新问答