问题:Pig初学者-下面是我的两个输入表
Table 1: Contain 3 columns (VID, TID and USID)
v1 TID101 US101
v2 TID102
v3 TID103
v4 TID104 US104
v5 US105
v6 US106
Table 2: Contain 3 columns (PID, TID, USID)
p1 TID101 US101
p2 TID102 US102
p3 TID103 US103
p4 TID104 US104
p5 TID105 US105
我想连接表1和表2,得到如下输出:
Expected Output:
v1 TID101 US101 p1
v2 TID102 p2
v3 TID103 p3
v4 TID104 US104 p4
v5 US105 p5
我尝试了如下的内部连接:
a= JOIN table1 BY (TID, USID), table2 BY (TID, USID);
b= FOREACH a GENERATE table1::vID, table1::TID, table1::USID, table2::PID;
但我只得到以下输出:
Actual Output:
v1 TID101 US101 p1
v4 TID104 US104 p4
我可以尝试左外连接,但我觉得当我加入多个键,这两个键被认为是强制性的加入,我不能有“或”条件。如果表1记录包含usid或tid,我所要做的就是从表2中获取pid。我不确定我错过了什么,并有兴趣了解最佳的方法,以达到预期的产出。请帮帮我!
1条答案
按热度按时间brtdzjyr1#
单列连接,结果并集,最终关系分离。
Pig笼草
输出