如何根据给定的格式在pig中组合两行?

e3bfsja2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(435)

我正试图处理一个文件。到现在为止,我得到的输出如下所示。

  1. input file:-
  2. c=1,2,3
  3. a,b,c,d,a
  4. d,e,f
  5. g,h,i,i
  6. c=2,3,4
  7. j,k,l
  8. m,n,a,h
  9. c=3,2,5
  10. d,g,a
  11. s,fs,a
  12. expecting an output like:-
  13. c=1,2,3,a,b,c,d,a
  14. c=1,2,3,d,e,f
  15. c=1,2,3,g,h,i,i
  16. c=2,3,4,j,k,l
  17. c=2,3,4,m,n,a,h
  18. c=3,2,5,d,g,a
  19. c=3,2,5,s,fs,a

有没有其他方法可以得到这样的结果。

  1. Another output format:-
  2. c=1,2,3,{(a,b,c,d,a),(d,e,f),(g,h,i,i)}
  3. c=2,3,4,{(j,k,l),(m,n,a,h)}
  4. c=3,2,5,{(d,g,a),(s,fs,a)}

有人能帮我吗。我试着用Pig但是没有接近这一点,我试着用Pig来解决这个问题得到一些练习。
谢谢和问候,安库什·雷迪

d7v8vwbk

d7v8vwbk1#

我认为用Pig是不可能的。pig是并行处理的,因此它无法知道文件中的记录顺序。因此,我建议您在使用pig进行处理之前,使用bash脚本或其他工具对其进行预处理。

相关问题