我有一个文件,其中每个元组跨越多行,例如:
START
name: Jim
phone: 2128789283
address: 56 2nd street, New York, USA
END
START
name: Tom
phone: 6308789283
address: 56 5th street, Chicago, 13611, USA
END
.
.
.
上面是我文件中的两个元组。我写的自定义项定义了 getNext()
函数检查它是否启动,然后我将初始化我的元组;如果是end,则返回元组(从字符串缓冲区);否则,我将只添加字符串到字符串缓冲区。
如果文件大小小于hdfs块大小64mb(在amazonemr上),那么它工作得很好,但是如果文件大小大于64mb,它将失败。我试着四处搜索,找到这篇博文。raja的解释很容易理解,他提供了一个示例代码。但是代码实现了 RecordReader
部分,而不是 getNext()
对于Pig LoadFunc
. 只是想知道是否有人有处理多行Pig元组分裂问题的经验?我应该继续吗 RecordReader
在Pig身上?如果是,怎么做?
谢谢。
2条答案
按热度按时间wz3gfoph1#
如果可以用start作为分隔符,可能下面的代码没有自定义项就可以工作
输出如下所示:
现在两者都被分成两个元组。
50few1ms2#
你可以像盖伊提到的那样预处理你的输入,也可以应用这里描述的其他技巧。
我认为最干净的解决方案是实现一个定制的inputformat(以及它的recordreader),它创建一个记录/开始-结束。pig的loadfunc位于hadoop的inputformat之上,因此您可以定义loadfunc将使用哪种inputformat。
自定义loadfunc的原始框架实现如下所示:
之后
LoadFunc
初始化InputFormat
以及它的RecordReader
,它定位数据的输入位置并开始从recordreader获取记录,创建结果元组(getnext()),直到完全读取输入。关于自定义输入格式的一些备注:
我将创建一个自定义输入格式,其中recordreader是
org.apache.hadoop.mapreduce.lib.input.LineRecordReader
:除了initialize()
:它将调用自定义linereader(基于org.apache.hadoop.util.LineReader
). inputformat的键应该是行偏移量(long),值应该是一个自定义的可写值。这将保存记录的字段(即开始和结束之间的数据)作为键值对的列表。每次你的阅读器nextKeyValue()
记录被写入可由linereader写入的自定义文件。整件事的要点是如何实现LineReader.readLine()
.另一种可能更简单的方法是更改textinputformat的分隔符(它在hadoop0.23中是可配置的,请参阅)
textinputformat.record.delimiter
)一个适合您的数据结构(如果可能的话)。在这种情况下,您的数据最终将进入Text
您需要从中拆分和提取kv对,并将其转换为元组。