我在hdfs中有两个文件,其中包含如下数据:file1:
id,name,age
1,x1,15
2,x2,14
3,x3,16
文件2:
id,name,grades
1,x1,A
2,x2,B
4,y1,A
5,y2,C
我要生成以下输出:
id,name,age,grades
1,x1,15,A
2,x2,14,B
3,x3,16,
4,y1,,A
5,y2,,C
我正在使用apache pig来执行操作,是否可以在pig中获得上述输出。这是一种联合,两者兼而有之。
我在hdfs中有两个文件,其中包含如下数据:file1:
id,name,age
1,x1,15
2,x2,14
3,x3,16
文件2:
id,name,grades
1,x1,A
2,x2,B
4,y1,A
5,y2,C
我要生成以下输出:
id,name,age,grades
1,x1,15,A
2,x2,14,B
3,x3,16,
4,y1,,A
5,y2,,C
我正在使用apache pig来执行操作,是否可以在pig中获得上述输出。这是一种联合,两者兼而有之。
3条答案
按热度按时间px9o7tmv1#
eni9jsuy2#
根据性能,第二种方法更好
希望这会有帮助!!
pvcm50d13#
因为你可以做工会和加入Pig这当然是可能的。
不必深入研究确切的语法,我可以告诉你这应该是可行的(过去曾使用过类似的解决方案)。
假设我们有a和b。
取a和b的前两列为a2和b2
将a2和b2合并为m2
独特的m2
现在你有了“索引”矩阵,我们只需要添加额外的列。
用a和b左连接m2
生成相关列
就这样!