如何提取pig中tuple/bag的最后一个元素?
我在pig的一个关系中有一个字符串。
我想提取这个字符串的最后一个标记作为一个新字段。我该怎么做?
例子:
我们的关系是
(id:int, description:chararray)
描述字段是一个长字符串,该字符串的最后一个标记是id为的人的姓氏,例如。
(123,' here is the description for John Edwards');
我想要的是从这个字符串中提取姓氏作为一个单独的字段,并具有以下关系
(id:int, lastname:chararray)
即。
(1234,'Edwards')
2条答案
按热度按时间bcs8qyzn1#
由于问题是如何找到袋子中的最后一个元素,您可以使用下面的代码,该代码适用于稍微不同的数据集:
pig脚本如下所示:
ggazkfy82#
对于解决方案,让我们假设您的输入关系称为数据
这将从有问题的字符串中提取最后一个单词。