在pig扩展中加载多个文件

rhfm7lfc  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(469)

请帮帮我。。。我花了很多时间在这上面。
我有一个文件夹中的文件,我希望他们被加载按照他们的文件名的顺序。
我甚至还编写了java代码,将文件名转换为与以下链接中的指南中的格式相匹配的格式。
在pig中加载多个文件
pig拉丁语:从一个日期范围(目录结构的一部分)加载多个文件
http://netezzaadmin.wordpress.com/2013/09/25/passing-parameters-to-pig-scripts/
我用的是Pig11.0
在我的剧本里,Pig,

set io.sort.mb 10;
    REGISTER 'path_to/lib/pig/piggybank.jar';

    data_ = LOAD '$input' USING org.apache.pig.piggybank.storage.XMLLoader('Data') AS (data_:chararray);
    DUMP data_;

壳内

[root@servername currentfolder]# pig -x local script.pig -param input=/20131217/{1..10}.xml

返回错误:

[main] ERROR.org.apache.pig.Main - ERROR 2999: Unexpected error. Undefined parameter : input
bwitn5fc

bwitn5fc1#

我不知道你为什么用输入参数。
例如,为了加载myfolder/currentdate/(yyyymmdd格式)文件夹中的每个文件,我使用以下脚本:

%default DATE `date  +%Y%m%d`;
x_basic_table = LOAD '/MyFolder/$DATE';

天气真好

相关问题