我有一个txt文件,格式如下:
{ (word1),(word2),(word3),....,(wordn) }
这些词没有引号。我想使用apache pig并将此文件的格式更改为:
word1 word2 word3 wordn
ApachePig有什么办法吗?
nwlqm0z11#
你能试试这个吗?输入
{ (word1),(word2),(word3),(wordn) }
pigscript1:脚本1:
A = LOAD 'input' AS (mybag:{T:(line:chararray)}); B = FOREACH A GENERATE REPLACE(BagToString(mybag.line),'_',' '); STORE B INTO 'output';
输出:(存储在output/part*文件中)
update:(如果希望所有列都在一行中,请使用flatte操作符)pigscript2:脚本2:
A = LOAD 'input' AS (mybag:{T:(line:chararray)}); B = FOREACH A GENERATE FLATTEN(mybag); STORE B INTO 'output1';
输出:
1条答案
按热度按时间nwlqm0z11#
你能试试这个吗?
输入
pigscript1:脚本1:
输出:(存储在output/part*文件中)
update:(如果希望所有列都在一行中,请使用flatte操作符)
pigscript2:脚本2:
输出: