文件1:
EmpID Name DOB SAL
122292|ABCDEF|1985|60000
122293|GHIJKL|1988|75000
文件2:
EmpID Agreeno POLNO
122292|UNI456|AWS12345
122292|UNI457|AWS12346
122292|UNI458|AWS12347
122292|UNI459|AWS12348
122293|UNI460|AWS12349
122293|UNI461|AWS12350
122293|UNI462|AWS12351
122293|UNI463|AWS12352
预期文件3中的结果集如下所示,
文件3:
需要每个员工的员工详细信息和员工协议详细信息,顺序如下。
122292|ABCDEF|1985|60000
122292|UNI456|AWS12345
122292|UNI457|AWS12346
122292|UNI458|AWS12347
122292|UNI459|AWS12348
122293|GHIJKL|1988|75000
122293|UNI460|AWS12349
122293|UNI461|AWS12350
122293|UNI462|AWS12351
122293|UNI463|AWS12352
我想在Pig身上做这个。除了Pig,还有其他方法(Hive/mr等)可以达到同样的效果吗?
我试图在pig中使用join-left-outer命令。但无法实现。
感谢你对此的回应。
1条答案
按热度按时间bxgwgixi1#
由于pig处理关系的方式,您无法真正实现所需的输出(以那种精确的格式)。你的模式是什么
File 3
是吗?所有的行没有相同的字段,这是pig所期望的。