使用PigLatin-hadoop在内部包中插入元组

cbeh67ev 于 2021-05-31 发布在 Hadoop

关注(0)|答案(2)|浏览(399)

我正在尝试使用pig拉丁语创建以下关系格式：
userid，day，{（pid，fulldate，x，y），（pid，fulldate，x，y），…}
关系描述：每天每个用户（userid）购买了多个产品（pid）
我正在将数据加载到：

A= LOAD '**from a HDFS URL**' AS (pid: chararray,userid: 
chararray,day:int,fulldate: chararray,x: chararray,y:chararray);
B= GROUP A BY (userid, day);
Describe B;

b:{group:（userid:chararray，day:int），a:{（pid:chararray，day:int，fulldate:chararray，x:chararray，userid:chararray，y:chararray）}}

C= FOREACH B FLATTEN(B) AS (userid,day), $1.pid, $1.fulldate,$1.x,$1.y;
Describe C;

c:{userid:chararray，day:int，{（pid:chararray）}}，{（fulldate:chararray）}，{（x:chararray）}，{（y:chararray）}
描述c的结果没有给出我想要的格式！我做错了什么？

hadoop apache-pig apache-pig-grunt

来源：https://stackoverflow.com/questions/49984756/inserting-tuples-inside-an-inner-bag-using-pig-latin-hadoop

2条答案

按热度按时间

zvokhttg1#

我的理解是 B 几乎就是你要找的，除了你希望元组包含 userid 以及 day 你只想 pid , fulldate , x ，和 y 出现在袋子里。
首先，您要展平元组 group 其中有字段 userid 以及 day ，不是包 A 它包含多个元组。压扁 group unnests元组，每行只有一组唯一的值，而将包展平 A 会有效地将你以前的 GROUP BY 声明，因为包中的值 A 不是唯一的。所以第一部分应该是 C = FOREACH B GENERATE FLATTEN(group) AS (userid, day); 下一步，你想保持 pid , fulldate , x ，和 y 在每个记录中使用不同的元组，但您选择它们的方式实际上是将所有 pid 价值观，一袋所有的 fulldate 值等。请尝试以使元组嵌套在包中的方式选择这些字段：

C = FOREACH B GENERATE 
    FLATTEN(group) AS (userid, day), 
    A.(pid, fulldate, x, y) AS A;

赞(0）回复(0）举报 2021-06-01

ckx4rj1h2#

你是对的，直到 GROUP BY 部分。然而，在那之后，你正试图做一些混乱的事情。我不知道你的化名怎么了 C . 要获得所需的格式，需要一个嵌套的foreach。

C = FOREACH B {
         data = A.pid, A.fulldate, A.x, A.y;
         GENERATE FLATTEN(group), data;
    }

这允许c为每一个都有一个记录 (userid, day) 以及所有相应的 (pid,fulldate, x, y) 一个袋子里的元组。您可以在此处阅读有关嵌套foreach的更多信息：https://www.safaribooksonline.com/library/view/programming-pig/9781449317881/ch06.html （在该链接中搜索嵌套的foreach）。

赞(0）回复(0）举报 2021-06-01

我来回答

使用PigLatin-hadoop在内部包中插入元组

2条答案

相关问题

热门标签

最新问答