在pig中,我正在加载和分组两个文件。我最终得到了这样的结果:
A = LOAD 'File1' Using PigStorage('\t');
B = LOAD 'File2' Using PigStorage('\t');
C = COGROUP A BY $0, B BY $0;
STORE C INTO 'Output' USING PigStorage('\t');
输出:
123 {(123,XYZ,456)} {(123,QRS,889,QWER)}
其中第一个字段是组密钥,第一个包来自file1,下一个包来自file2。这三个部分是使用pigstorage('\t')子句中标识的内容相互分隔的。
问:我如何强迫Pig用逗号以外的东西来分隔袋子?在我的实际数据中,有逗号,所以我需要用制表符来分隔。
期望输出:
123 {(123\tXYZ\t456)} {(123\tQRS\t889\tQWER)}
1条答案
按热度按时间kulphzqa1#
这似乎是一个开放的问题(截至2013年6月)在Pig。有关更多详细信息,请参见相应的jira。在问题解决之前,您可以更改输入数据。