我有一个emr hbase集群在s3上运行。我有多个文件夹在s3中,我需要上传到电子病历。我使用aws lambda函数提交作业。下面是为1 s3文件夹提交emr作业的代码:
step = {
'Name':'My step',
'ActionOnFailure': 'CONTINUE',
'HadoopJarStep': {
'Jar': "/usr/lib/phoenix/phoenix-4.14.3-HBase-1.4-client.jar",
'MainClass': "org.apache.phoenix.mapreduce.CsvBulkLoadTool",
'Args': [
'--table',
table_name,
'--input',
's3://s3location1/',
'--zookeeper',
master_dns
]
}
}
emr_client = boto3.client('emr')
response = emr_client.add_job_flow_step(
JobFlowId=cluster_id,
Steps=[step])
对于s3location1,作业运行正常。但现在我有多个s3位置,每个位置都有不同的名称,并且没有前缀。我需要提交这些文件夹的工作在1个单一的步骤以上。我如何提到下面文件夹的别名“--input”?
暂无答案!
目前还没有任何答案,快来回答吧!