我的数据设置如下:
引用
1000026 4043055
1000033 4190903
1000033 4975983
1000033 4786543
1000043 4091523
1000044 4082383
1000044 4055371
1000045 4290571
1000046 5918892
1000046 5525001
我需要创建pig代码将数据转换为以下结构:
引用
1000026 4043055
1000033 4190903, 4975983, 4786543
1000043 4091523
1000044 4082383, 4055371
1000045 4290571
1000046 5918892, 5525001
有1600万行数据,所以我不能用手来做。
我正在使用cloudera pig编辑器。所有数据都是数字。
非常感谢您的帮助。
1条答案
按热度按时间zaqlnxep1#
我不确定你的意见是真的
tab delimited or space delimited
. 基于上述输入,我假设space
分隔的。Pig手稿:
输出:
上述输出将在
output/part*
文件。