pyspark 在AWS EMR中按步骤设置环境变量

qqrboqgw 于 2023-11-16 发布在 Spark

关注(0)|答案(2)|浏览(122)

我无法为我的spark应用程序设置environment variables。我正在使用AWS EMR运行spark应用程序。这更像是我在spark之上用python编写的框架，根据环境变量运行多个spark作业。所以为了让我启动确切的作业，我需要将环境变量传递到spark-submit中。我尝试了几种方法来做到这一点。但都不起作用。当我试图在应用程序中打印环境变量的值时，它返回空。
要在EMR中运行群集，我使用以下AWS CLI命令

aws emr create-cluster --applications Name=Hadoop Name=Hive Name=Spark --ec2-attributes '{"KeyName":"<Key>","InstanceProfile":"<Profile>","SubnetId":"<Subnet-Id>","EmrManagedSlaveSecurityGroup":"<Group-Id>","EmrManagedMasterSecurityGroup":"<Group-Id>"}' --release-label emr-5.13.0 --log-uri 's3n://<bucket>/elasticmapreduce/' --bootstrap-action 'Path="s3://<bucket>/bootstrap.sh"' --steps file://./.envs/steps.json  --instance-groups '[{"InstanceCount":1,"InstanceGroupType":"MASTER","InstanceType":"c4.xlarge","Name":"Master"}]' --configurations file://./.envs/Production.json --ebs-root-volume-size 64 --service-role EMRRole --enable-debugging --name 'Application' --auto-terminate --scale-down-behavior TERMINATE_AT_TASK_COMPLETION --region <region>

字符串
现在Production.json看起来像这样：

[
  {
   "Classification": "yarn-env",
   "Properties": {},
   "Configurations": [
       {
         "Classification": "export",
         "Properties": {
             "FOO": "bar"
         }
       }
   ]
 },
 {
  "Classification": "spark-defaults",
  "Properties": {
    "spark.executor.memory": "2800m",
    "spark.driver.memory": "900m"
  }
 }
]

型
steps.json是这样的：

[
  {
    "Name": "Job",
    "Args": [
      "--deploy-mode","cluster",
      "--master","yarn","--py-files",
      "s3://<bucket>/code/dependencies.zip",
      "s3://<bucket>/code/__init__.py",
      "--conf", "spark.yarn.appMasterEnv.SPARK_YARN_USER_ENV=SHAPE=TRIANGLE",
      "--conf", "spark.yarn.appMasterEnv.SHAPE=RECTANGLE",
      "--conf", "spark.executorEnv.SHAPE=SQUARE"
  
    ],
    "ActionOnFailure": "CONTINUE",
    "Type": "Spark"
  }

]

型
当我尝试访问我的__init__.py代码中的环境变量时，它只是打印空的。正如你所看到的，我在cluster mode中使用spark和yarn cluster运行步骤。我通过这些链接到达这个位置。

How do I set an environment variable in a YARN Spark job?
https://spark.apache.org/docs/latest/configuration.html#environment-variables
https://spark.apache.org/docs/latest/configuration.html#runtime-environment

pyspark

来源：https://stackoverflow.com/questions/49922029/setting-environment-variables-per-step-in-aws-emr

2条答案

按热度按时间

w1e3prcc1#

使用分类yarn-env将环境变量传递给工作节点。
使用classification spark-env将环境变量传递给驱动程序，使用deploy模式客户端。使用deploy模式集群时，使用yarn-env。

赞(0）回复(0）举报 2023-11-16

k7fdbhmy2#

为了使用EMR集群，我使用AWS Lambda，创建一个项目，当条件中设置了标志时，该项目将构建EMR集群。在这个项目中，我们定义了可以在Lambda中设置的变量，然后将其替换为它的值。要使用它，我们必须使用AWS API。您必须使用的可能方法是AWSSimpleSystemsManagement.getParameters。然后，创建一个像val parametersValues = parameterResult.getParameters.asScala.map(k => (k.getName, k.getValue))这样的Map，让它拥有一个包含名称和值的元组。
例如：${BUCKET} = "s3://bucket-name/这意味着，你只需要在你的JSON ${BUCKET}中写入你的路径的所有名称。
一旦你替换了值，步骤JSON就可以有这样的视图，

[
  {
    "Name": "Job",
    "Args": [
      "--deploy-mode","cluster",
      "--master","yarn","--py-files",
      "${BUCKET}/code/dependencies.zip",
      "${BUCKET}/code/__init__.py",
      "--conf", "spark.yarn.appMasterEnv.SPARK_YARN_USER_ENV=SHAPE=TRIANGLE",
      "--conf", "spark.yarn.appMasterEnv.SHAPE=RECTANGLE",
      "--conf", "spark.executorEnv.SHAPE=SQUARE"

    ],
    "ActionOnFailure": "CONTINUE",
    "Type": "Spark"
  }

]

字符串

赞(0）回复(0）举报 2023-11-16

我来回答

pyspark 在AWS EMR中按步骤设置环境变量

2条答案

相关问题

热门标签

最新问答