我正在编写pig脚本需要在非结构化文件中添加三列

gab6jxml  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(298)

我有一个非结构化的键值对文件,有19-22列。该文件有8000条记录。第一个4000条记录有19列,其他记录有22列。看到第二个4000条记录,我知道了前4000条中缺少的3列的位置和名称。col1应该在第3个位置,col2和col4应该在记录的最后一个位置。您能帮助我如何启动和解析它吗?这样,输出文件中每个列总共包含22个结构化列,并且应该只包含列中的值,而不包含列的键。

au9on6nz

au9on6nz1#

您可以编写一个自定义的清管器加载程序。您可以解析数据,然后定义自己的模式来管理缺少的列

相关问题