我正面临着这个问题。我无法解决太大的帧错误,即使在增加shuffle分区。总记录:1.5亿
bkhjykvo1#
你可以试试1.查看故障节点上的日志文件。您希望查找文本“Killing container”。如果您看到文本“running beyond physical memory limits”,则增加memoryOverhead应该可以解决问题
sshcrbum2#
错误是说其中一个shuffle块太大而无法获取。set spark.maxRemoteBlockSizeFetchToMem < 2g
spark.maxRemoteBlockSizeFetchToMem < 2g
2条答案
按热度按时间bkhjykvo1#
你可以试试
1.查看故障节点上的日志文件。您希望查找文本“Killing container”。如果您看到文本“running beyond physical memory limits”,则增加memoryOverhead应该可以解决问题
2.1. spark.reducer.maxReqsInFlight=1; --每次只拉取一个文件以使用全部网络带宽。
2.2 spark.shuffle.io.retryWait= 60 s; --在重试之前增加检索shuffle分区时的等待时间。对于较大的文件,需要更长的时间。
2.3 spark.shuffle.io.maxRetries=10;
2.4默认的120秒会导致很多执行程序在重负载下超时
sshcrbum2#
错误是说其中一个shuffle块太大而无法获取。set
spark.maxRemoteBlockSizeFetchToMem < 2g