如何根据给定的格式在pig中组合两行？

e3bfsja2 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(362)

我正试图处理一个文件。到现在为止，我得到的输出如下所示。

input file:-
c=1,2,3
a,b,c,d,a
d,e,f
g,h,i,i
c=2,3,4
j,k,l
m,n,a,h
c=3,2,5
d,g,a
s,fs,a

    expecting an output like:-
    c=1,2,3,a,b,c,d,a
    c=1,2,3,d,e,f
    c=1,2,3,g,h,i,i
    c=2,3,4,j,k,l
    c=2,3,4,m,n,a,h
    c=3,2,5,d,g,a
    c=3,2,5,s,fs,a

有没有其他方法可以得到这样的结果。

Another output format:-
    c=1,2,3,{(a,b,c,d,a),(d,e,f),(g,h,i,i)}
    c=2,3,4,{(j,k,l),(m,n,a,h)}
    c=3,2,5,{(d,g,a),(s,fs,a)}

有人能帮我吗。我试着用Pig但是没有接近这一点，我试着用Pig来解决这个问题得到一些练习。
谢谢和问候，安库什·雷迪

hadoop Hive mapreduce apache-pig pig-udf

来源：https://stackoverflow.com/questions/38233677/how-to-combine-two-lines-in-pig-based-on-the-given-format

1条答案

按热度按时间

d7v8vwbk1#

我认为用Pig是不可能的。pig是并行处理的，因此它无法知道文件中的记录顺序。因此，我建议您在使用pig进行处理之前，使用bash脚本或其他工具对其进行预处理。

赞(0）回复(0）举报 2021-06-02

我来回答

如何根据给定的格式在pig中组合两行？

1条答案

相关问题

热门标签

最新问答