加载文件时避免解析

e37o9pze  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(310)

假设我有以下文件(input.txt):

1   2   sometext1
2   3   sometext2
3   4   sometext3
4   5   sometext4

i、 一种制表符分隔的文件,其中每行由两个代表一个字符的字符串组成 Integer 以及表示任意文本的第三个字符串。
此文件是 PigLatin 脚本:

input = load 'input.txt' as (a:int, b:int, c:chararray);

我的假设是pig将浪费时间解析文本文件以生成相应的整数。我说的对吗?
我想在一个二进制文件中存储三个整数的二进制表示。
我怎样才能让Pig理解这样的二进制文件?我应该简单地延长 LoadFunc 或者我需要使用 BinStorage ?

lf5gs5x2

lf5gs5x21#

你害怕在这里浪费多少时间?假设您的脚本的其余部分做了任何有意义的事情,或者您的文件足够大(因此io将是严重的),那么与其他所有内容相比,解析工作将是微不足道的

相关问题