有没有办法在pig中创建自定义代理密钥?。
例:我们有如下数据
Salary City Name
20000 newyork john
30000 sydney joseph
60000 delhi mike
30000 sydney joseph
对于这些数据,我们需要创建如下所示的代理键,结果如下所示。
Salary City Name
SCN1 20000 newyork john
SCN2 30000 sydney joseph
SCN3 60000 delhi mike
SCN2 30000 sydney joseph
而不是创建随机唯一键?
提前谢谢!!。
2条答案
按热度按时间7gyucuyw1#
首先对数据进行distinct,使用rank和concat获取每个distinct行的自定义键。然后将distinct与原始数据集联接。最后生成所需的列。
这就是它如何处理示例数据
一
b
c
d
e
f
xe55xuns2#
感谢好奇的头脑,帮助我在生成唯一的代理键。这里是Pig脚本,我已经测试和工作得很好。
每一步的输出如下: