使用apache pig更改文本文件的格式

iyr7buue  于 2021-06-25  发布在  Pig
关注(0)|答案(1)|浏览(306)

我有一个txt文件,格式如下:

{ (word1),(word2),(word3),....,(wordn) }

这些词没有引号。我想使用apache pig并将此文件的格式更改为:

word1
word2
word3
wordn

ApachePig有什么办法吗?

nwlqm0z1

nwlqm0z11#

你能试试这个吗?
输入

{ (word1),(word2),(word3),(wordn) }

pigscript1:脚本1:

A = LOAD 'input' AS (mybag:{T:(line:chararray)});
B = FOREACH A GENERATE REPLACE(BagToString(mybag.line),'_',' ');
STORE B INTO 'output';

输出:(存储在output/part*文件中)

word1 word2 word3 wordn

update:(如果希望所有列都在一行中,请使用flatte操作符)
pigscript2:脚本2:

A = LOAD 'input' AS (mybag:{T:(line:chararray)});
B = FOREACH A GENERATE FLATTEN(mybag);
STORE B INTO 'output1';

输出:

word1
word2
word3
wordn

相关问题