container在一小时后由于oom而崩溃

x6492ojm  于 2021-06-26  发布在  Mesos
关注(0)|答案(1)|浏览(413)

我在dc/os上用docker运行spark。当我提交spark作业时,使用以下内存配置
驱动程序2 gb
执行器2 gb
遗嘱执行人3人。
spark submit工作正常,1小时后docker容器(worker容器)由于oom(退出代码137)崩溃。但是我的spark日志显示1gb+的内存是可用的。
奇怪的是,容器中运行的是同一个jar,在独立模式下正常运行了将近20多个小时。
这是正常行为的Sparkcontianers,或是有什么我做错了。或是有任何额外的配置,我需要使用的docker容器。
谢谢

wkyowqbh

wkyowqbh1#

看来我也有类似的问题。你看过操作系统上的缓存/缓冲区内存使用情况了吗?
使用下面的命令,您可以获得有关操作系统内存使用类型的一些信息:

free -h

在我的例子中,缓冲区/缓存一直在增长,直到容器中没有更多可用的内存。在我的例子中,虚拟机是一台运行在aws上的centos机器,发生这种情况时它完全崩溃了。

相关问题