emr引导操作何时运行

n53p2ov0  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(359)

我正在创建一个aws集群,我有一个引导操作来更改spark-defaults.conf。
服务器不断被终止
无法读取/etc/spark/conf/spark-defaults.conf:没有这样的文件或目录
但是如果我跳过这个检查服务器上的文件确实存在。所以我认为事情的顺序是不正确的。我使用的是emr4.5提供的spark1.6.1,所以它应该默认安装。
有什么线索吗?
谢谢!

1cklez4t

1cklez4t1#

您不应该在引导操作中更改spark配置。相反,您应该指定必须进行的任何更改 spark-defaults 以一种特殊的方式 json 启动群集时需要添加的文件。如果你使用 cli 要启动,命令应如下所示:

aws --profile MY_PROFILE emr create-cluster \
 --release-label emr-4.6.0 \
 --applications Name=Spark Name=Ganglia Name=Zeppelin-Sandbox \
 --name "Name of my cluster" \
 --configurations file:///path/to/my/emr-configuration.json \
 ...
 --bootstrap-actions ....
 --step ...

emr-configuration.json 然后将更改设置为 spark-defaults . 例如:

[
  {
    "Classification": "capacity-scheduler",
    "Properties": {
      "yarn.scheduler.capacity.resource-calculator": "org.apache.hadoop.yarn.util.resource.DominantResourceCalculator"
    }
  },
  {
    "Classification": "spark",
    "Properties": {
      "maximizeResourceAllocation": "true"
    }
  },
  {
    "Classification": "spark-defaults",
    "Properties": {
      "spark.dynamicAllocation.enabled": "true",
      "spark.executor.cores":"7"
    }
  }
]

相关问题