ApachePig—想编写(或使用现有的?)udf来读取具有多字符分隔符的文件吗

bvpmtnay  于 2021-06-21  发布在  Pig
关注(0)|答案(1)|浏览(291)

我想在pig中读取一个使用多字符分隔符分隔字段的数据文件(我不需要这样写文件)。所以我的Pig剧本看起来像:

myData = LOAD 'myFile' USING PigStorage(‘~|~’) as (col1:chararray, col2:chararray);

我的问题是pigstorage不支持多字符分隔符。
可能的解决方案有:
现有自定义项。有吗?
基于读取文件的自定义项的工作示例的自定义项。
关于第二点,我看到了大量复制的pig.apache.org示例,但问题是这段代码无法编译(除了明显的语法错误,所有import语句都丢失了,所以我不知道需要导入哪个版本的类!)

bzzcjhmw

bzzcjhmw1#

如果您知道需要多少字段,可以使用 org.apache.pig.piggybank.storage.MyRegExLoader 1
但是您需要编写一个正则表达式来解析整行代码,所以它不像 PigStorage .

相关问题