我想在pig中读取一个使用多字符分隔符分隔字段的数据文件(我不需要这样写文件)。所以我的Pig剧本看起来像:
myData = LOAD 'myFile' USING PigStorage(‘~|~’) as (col1:chararray, col2:chararray);
我的问题是pigstorage不支持多字符分隔符。
可能的解决方案有:
现有自定义项。有吗?
基于读取文件的自定义项的工作示例的自定义项。
关于第二点,我看到了大量复制的pig.apache.org示例,但问题是这段代码无法编译(除了明显的语法错误,所有import语句都丢失了,所以我不知道需要导入哪个版本的类!)
1条答案
按热度按时间bzzcjhmw1#
如果您知道需要多少字段,可以使用
org.apache.pig.piggybank.storage.MyRegExLoader
1但是您需要编写一个正则表达式来解析整行代码,所以它不像
PigStorage
.