在apachepig0.15中,我有两个简单的列表(没有id/主键等),我想将它们合并在一起,创建一个包含两列的元组列表。例子:
Names
-----
Peter
John
Anne
Ages
-----
45
23
44
我想最终得到:
Names Age
---------------
Peter 45
John 23
Anne 44
我知道我可以在两个列表上都使用rank,然后加入,但这看起来太昂贵了,因为我在这些列表中有数百万个条目。我有点想用“merge”做一个连接而不需要连接参数。。。
你知道如何在ApachePig中高效地实现这一点吗?
1条答案
按热度按时间9gm1akwq1#
如果您不关心年龄和姓名之间的Map,那么您可以尝试两个关系之间的交叉连接。按名称发布交叉连接组,并从中保留任何人。然而,在国际海事组织,这可能是更昂贵的(而不是资源密集型)比排名方法你提到的上述。