对没有分隔符的记录使用pig脚本标记字段

gev0vcfq  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(328)

我在一个原始文件中有字段c1c2c3c4(不存在delimter),我必须生成类似c1,c2,c3,c4的输出。给定:-c1=c2=c3=c4=4字节的大小。

ryhaxcpt

ryhaxcpt1#

这些步骤应该很简单:
按原样加载数据
使用substring函数生成四个新列
例如,您应该能够将c2提取为:

SUBSTRING(inputstring, 5, 8)
kmbjn2e3

kmbjn2e32#

延伸丹尼斯的答案。假设字段存储为chararray

A = LOAD 'data.txt' as (f1:chararray);
B = FOREACH A GENERATE 
         SUBSTRING(f1,0,2) as A1,
         SUBSTRING(f1,2,4) as A2,
         SUBSTRING(f1,4,6) as A3,
         SUBSTRING(f1,6,8) as A4;
DUMP B;

相关问题