如何使用气流和pass参数触发googledataproc作业

inn6fuwd  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(404)

作为dag的一部分,我使用下面的代码触发gcp pyspark dataproc作业,

dag=dag,
   gcp_conn_id=gcp_conn_id,
   region=region,
   main=pyspark_script_location_gcs,
   task_id='pyspark_job_1_submit',
   cluster_name=cluster_name,
   job_name="job_1"
)

如何将变量作为参数传递给可以在脚本中访问的pyspark作业?

wixjitnu

wixjitnu1#

你可以使用参数 arguments DataProcPypSparkOperator的名称:
参数(列表)–作业的参数(模板化)

job = DataProcPySparkOperator(
    gcp_conn_id=gcp_conn_id,
    region=region,
    main=pyspark_script_location_gcs,
    task_id='pyspark_job_1_submit',
    cluster_name=cluster_name,
    job_name="job_1",
    arguments=[
        "-arg1=arg1_value", # or just "arg1_value" for non named args
        "-arg2=arg2_value"
    ],
    dag=dag
)

相关问题