emr引导操作何时运行

n53p2ov0  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(387)

我正在创建一个aws集群,我有一个引导操作来更改spark-defaults.conf。
服务器不断被终止
无法读取/etc/spark/conf/spark-defaults.conf:没有这样的文件或目录
但是如果我跳过这个检查服务器上的文件确实存在。所以我认为事情的顺序是不正确的。我使用的是emr4.5提供的spark1.6.1,所以它应该默认安装。
有什么线索吗?
谢谢!

1cklez4t

1cklez4t1#

您不应该在引导操作中更改spark配置。相反,您应该指定必须进行的任何更改 spark-defaults 以一种特殊的方式 json 启动群集时需要添加的文件。如果你使用 cli 要启动,命令应如下所示:

  1. aws --profile MY_PROFILE emr create-cluster \
  2. --release-label emr-4.6.0 \
  3. --applications Name=Spark Name=Ganglia Name=Zeppelin-Sandbox \
  4. --name "Name of my cluster" \
  5. --configurations file:///path/to/my/emr-configuration.json \
  6. ...
  7. --bootstrap-actions ....
  8. --step ...

emr-configuration.json 然后将更改设置为 spark-defaults . 例如:

  1. [
  2. {
  3. "Classification": "capacity-scheduler",
  4. "Properties": {
  5. "yarn.scheduler.capacity.resource-calculator": "org.apache.hadoop.yarn.util.resource.DominantResourceCalculator"
  6. }
  7. },
  8. {
  9. "Classification": "spark",
  10. "Properties": {
  11. "maximizeResourceAllocation": "true"
  12. }
  13. },
  14. {
  15. "Classification": "spark-defaults",
  16. "Properties": {
  17. "spark.dynamicAllocation.enabled": "true",
  18. "spark.executor.cores":"7"
  19. }
  20. }
  21. ]
展开查看全部

相关问题