当平均使用的cpu资源为71%时,mesos dcos从不允许服务启动

knsnq2tg  于 2021-06-26  发布在  Mesos
关注(0)|答案(1)|浏览(393)

我遇到了一个问题,我们试图在mesos dcos集群上运行多个服务,有些正在运行spark进程和一些python服务。因此,在我们的小型测试mesos dcos集群中,我们达到了70%的cpu资源每天使用多次。
而人们想要开始的服务只是等待从节点上可以很好地满足的cpu提供,但在某些情况下是不允许分配的。
一个典型的例子是总共有7个cpu未使用,1-3个服务寻找0.5到2个cpu资源的cpu供应。这是可以实现的。如果在视图上查看节点资源。
我的问题是,是否有一个硬性限制,不允许同时分配超过70%的CPU?
这个极限有什么原因?把它改成更高的值会有什么影响?
最后我们该给谁改限额?

qoefvg9y

qoefvg9y1#

答案似乎是调试场景1的中间层文档中所说的。
但是问题不是角色问题,也不是我们试图直接向上分配超出集群处理能力的资源。https://docs.mesosphere.com/1.11/tutorials/dcos-debug/scenarios/scen-1/ 问题是我们的一些服务保留了cpu资源。
保留的_资源:“{”cassandra role“{”disk“:10496.0”,mem“:5152.0”,gpus“:0.0”,cpu“:1.6”,ports“:”[7000-7001,7199-7199,9042-9042]“}”kafka role“{”disk“:5256.0”,mem“:2080.0”,gpus“:0.0”,cpus“:1.1”,ports“:”[1025-1025]“}
总计2.8或2.81
假设在这种情况下,从节点最多有4个cpu,那么reming in应该是1.19,这就是我可以请求并仍然获得资源的数量。
当试图找到答案时,这是相当误导的,因为gui只显示使用的而不是保留的。
我通过https:///mesos/state-summary找到了答案
我找到了一个节点,它是“hostname”:“1.0.1.199”,“port”:5051,“attributes”:{},“pid”:“slave(1)@1.0.1.199:5051”,“registered\u time”:1526561517.17816,“reregistered\u time”:1526561517.17896,“resources”:{“disk”:119266.0,“mem”:29476.0,“gpus”:0.0,“cpu”:4.0,“ports”:“[1025-2180,2182-3887,3889-5049,5052-8079,8082-8180,8182-32000]“},“使用的资源”:{“磁盘”:15752.0,“内存”:6368.0,“GPU”:0.0,“CPU”:1.81,“端口”:“[1025-1025,7000-7001,7199-7199,9042-9042]”,“提供的资源”:{“磁盘”:0.0,“内存”:0.0,“GPU”:0.0,“CPU”:0.0},“保留的资源”:{“Cassandra角色”:{“磁盘”:10496.0,“mem”:5152.0,“GPU”:0.0,“CPU”:1.6,“端口”:“[7000-7001,7199-7199,9042-9042]”,“kafka role”:{“disk”:5256.0,“mem”:2080.0,“gpus”:0.0,“cpu”:1.1,“ports”:“[1025-1025]”},“unreserved\u resources”:{“disk”:103514.0,“mem”:22244.0,“gpus”:0.0,“cpu”:1.3,“ports”:“[1026-2180、2182-3887、3889-5049、5052-6999、7002-7198、7200-8079、8082-8180、8182-9041、9043-32000]”}
无保留的资源:给出“cpu”:1.3,“这个值我不明白为什么是1.3而不是1.19。考虑到1.19是调试页面显示的内容,以及我可以从服务器1.0.1.199请求和获取的内容。

相关问题