向aws emr提交作业,指定多个输入位置

fgw7neuy  于 2021-07-15  发布在  Hbase
关注(0)|答案(0)|浏览(510)

我有一个emr hbase集群在s3上运行。我有多个文件夹在s3中,我需要上传到电子病历。我使用aws lambda函数提交作业。下面是为1 s3文件夹提交emr作业的代码:

  1. step = {
  2. 'Name':'My step',
  3. 'ActionOnFailure': 'CONTINUE',
  4. 'HadoopJarStep': {
  5. 'Jar': "/usr/lib/phoenix/phoenix-4.14.3-HBase-1.4-client.jar",
  6. 'MainClass': "org.apache.phoenix.mapreduce.CsvBulkLoadTool",
  7. 'Args': [
  8. '--table',
  9. table_name,
  10. '--input',
  11. 's3://s3location1/',
  12. '--zookeeper',
  13. master_dns
  14. ]
  15. }
  16. }
  17. emr_client = boto3.client('emr')
  18. response = emr_client.add_job_flow_step(
  19. JobFlowId=cluster_id,
  20. Steps=[step])

对于s3location1,作业运行正常。但现在我有多个s3位置,每个位置都有不同的名称,并且没有前缀。我需要提交这些文件夹的工作在1个单一的步骤以上。我如何提到下面文件夹的别名“--input”?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题