spark master无法处理并发作业提交(aws emr)

hts6caw3  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(593)

我正在运行aws emr群集(emr-5.30.1、spark 2.4.5、livy 0.7.0)。我的服务将作业传递给livy,livy在集群模式下执行“spark submit”将作业提交给yarn。spark master是8核16gb机器。
我看到死掉的工作时,约15-20个工作提交给利维一次。livy日志显示“spark submit退出,代码143”,表明进程被内核或oom处理程序终止。我无法在任何地方找到更多已终止进程的日志。当提交这些作业时,监视主节点将显示~100%的cpu和~80%的内存。
我试过用32gb的主机。此节点可以处理15-20个并行提交的作业,但当并行作业超过~30个时失败。
为了解决这个问题,我正在考虑在我的服务中加入一个队列,然后逐渐将(每8-10秒一个作业)作业传递给livy。我不愿意添加队列,因为这需要是一个分布式队列。
我这里有几个问题
这似乎是一个内存不足的问题,但我没有看到显式日志。我能断定这是一个记忆错误吗?
有什么其他的解决方案/方法可以用来解决这个问题。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题