通过aws cli提交pig程序时指定s3文件位置的位置

moiiocjp 于 2021-06-21 发布在 Pig

关注(0)|答案(1)|浏览(346)

我正在创建一个集群并通过awscli提交一个pig步骤。pig脚本和脚本的输入文件都存储在s3 bucket中。
Pig脚本示例：

REGISTER file:/usr/lib/pig/lib/piggybank.jar;
DEFINE XPath org.apache.pig.piggybank.evaluation.xml.XPath();
A = LOAD 's3://my-group/myfolder/somedata.xml' USING org.apache.pig.piggybank.storage.XMLLoader('item') AS (x:chararray);
B = FOREACH A GENERATE XPath(x, 'detail');
STORE B INTO 's3://my-group/myfolder/somedetails';

cli示例：

aws emr create-cluster \
--steps Type=PIG,Name='Pig program',ActionOnFailure=CONTINUE, \
Args=[-f,s3://my-group/myfolder/some_script.pig, \
-p,INPUT=s3://my-group/myfolder,-p,OUTPUT=s3://my-group/myfolder] \
--applications Name=Pig --enable-debugging \
--log-uri s3://my-group/myfolder --release-label emr-5.2.0 \
--instance-groups \
InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m3.2xlarge \
InstanceGroupType=CORE,InstanceCount=5,InstanceType=c1.medium \
--name "Test cluster" --ec2-attributes KeyName=ClusterKeyPair

这似乎是工作（至少没有失败）。。。
但这是必要的吗 s3://my-group/myfolder 是否在两个位置都指定？如果不是的话，写这个的首选方法是什么？

amazon-emr amazon-s3 amazon-web-services apache-pig aws-cli

来源：https://stackoverflow.com/questions/40747652/where-to-specify-s3-file-locations-when-submitting-pig-program-via-aws-cli

1条答案

按热度按时间

35g0bw711#

事实证明，在pig脚本中，我可以使用emr作业流参数，而不是硬编码位置 $INPUT 以及 $OUTPUT ，例如：

A = LOAD '$INPUT' USING org.apache.pig.piggybank.storage.XMLLoader('item') AS (x:chararray);
B = FOREACH A GENERATE XPath(x, 'detail');
STORE B INTO '$OUTPUT';

资料来源：programming elastic mapreduce，第4章

赞(0）回复(0）举报 2021-06-21

我来回答

通过aws cli提交pig程序时指定s3文件位置的位置

1条答案

相关问题

热门标签

最新问答