在emr上运行一个输入为5.5tb的spark作业,获得 java.io.IOException: Connection reset by peer
群集详细信息:
主机:1x m4.large(在群集模式下运行)
芯:15 x r5.12 x大
spark环境变量集:
spark.executor.cores:5个
spark.driver.cores:5个
spark.executor.memory:37克
spark.driver.memory:37克
spark.executor.memoryoverhead:5g以上
spark.default.parallelism:2680
spark.sql.shuffle.partitions:2680分区
spark.executor.extrajavaoptions:-xx:+useg1gc
spark.serializer:org.apache.spark.serializer.kryoserializer
洗牌后第一阶段作业失败,这是ganglia的截图。注意:利用率的下降与失败阶段开始、作业失败并在13:17重新启动时相匹配:
我的问题:
此故障是由spark.default.parallelism设置过低引起的吗?
我看到前一个阶段的shuffle write是11.3tb,失败的阶段有8040个任务,这是否意味着新阶段中的每个分区将重11.3tb/8040?
暂无答案!
目前还没有任何答案,快来回答吧!