Spark 1.6即使在增加shuffle分区后也面临过大的帧错误

yshpjwxd  于 2023-10-23  发布在  Apache
关注(0)|答案(2)|浏览(154)

我正面临着这个问题。我无法解决太大的帧错误,即使在增加shuffle分区。
总记录:1.5亿

bkhjykvo

bkhjykvo1#

你可以试试
1.查看故障节点上的日志文件。您希望查找文本“Killing container”。如果您看到文本“running beyond physical memory limits”,则增加memoryOverhead应该可以解决问题

  1. org.apache.spark.shuffle.FetchFailedException可能由于超时检索shuffle分区而发生。请尝试以下配置
    2.1. spark.reducer.maxReqsInFlight=1; --每次只拉取一个文件以使用全部网络带宽。
    2.2 spark.shuffle.io.retryWait= 60 s; --在重试之前增加检索shuffle分区时的等待时间。对于较大的文件,需要更长的时间。
    2.3 spark.shuffle.io.maxRetries=10;
    2.4默认的120秒会导致很多执行程序在重负载下超时
sshcrbum

sshcrbum2#

错误是说其中一个shuffle块太大而无法获取。set spark.maxRemoteBlockSizeFetchToMem < 2g

相关问题