我正在创建一个aws集群,我有一个引导操作来更改spark-defaults.conf。服务器不断被终止无法读取/etc/spark/conf/spark-defaults.conf:没有这样的文件或目录但是如果我跳过这个检查服务器上的文件确实存在。所以我认为事情的顺序是不正确的。我使用的是emr4.5提供的spark1.6.1,所以它应该默认安装。有什么线索吗?谢谢!
1cklez4t1#
您不应该在引导操作中更改spark配置。相反,您应该指定必须进行的任何更改 spark-defaults 以一种特殊的方式 json 启动群集时需要添加的文件。如果你使用 cli 要启动,命令应如下所示:
spark-defaults
json
cli
aws --profile MY_PROFILE emr create-cluster \ --release-label emr-4.6.0 \ --applications Name=Spark Name=Ganglia Name=Zeppelin-Sandbox \ --name "Name of my cluster" \ --configurations file:///path/to/my/emr-configuration.json \ ... --bootstrap-actions .... --step ...
在 emr-configuration.json 然后将更改设置为 spark-defaults . 例如:
emr-configuration.json
[ { "Classification": "capacity-scheduler", "Properties": { "yarn.scheduler.capacity.resource-calculator": "org.apache.hadoop.yarn.util.resource.DominantResourceCalculator" } }, { "Classification": "spark", "Properties": { "maximizeResourceAllocation": "true" } }, { "Classification": "spark-defaults", "Properties": { "spark.dynamicAllocation.enabled": "true", "spark.executor.cores":"7" } } ]
1条答案
按热度按时间1cklez4t1#
您不应该在引导操作中更改spark配置。相反,您应该指定必须进行的任何更改
spark-defaults
以一种特殊的方式json
启动群集时需要添加的文件。如果你使用cli
要启动,命令应如下所示:在
emr-configuration.json
然后将更改设置为spark-defaults
. 例如: