vllm Ray worker内存不足

dldeef67  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(26)

尝试使用asyncengine在具有'use_ray'为true的服务器上旋转。几个小时后,我得到了以下错误:
节点上的内存(IP:169.254.181.2,ID:708c7baf966d59aa3f08299830c349ca055293ebb1c33d8e72cd3336)中正在运行的任务(actor ID:0dab4ab45f6c947201afac6d01000000,名称=RayWorkerVllm.init,pid=308,内存使用量=11.15GB)的内存使用量为12.49GB / 13.15GB(0.950003),超过了内存使用阈值0.95。Ray杀死了这个worker(ID:79a553ea91fe46f95e8384ddf8a8f0a01e3418a975ecd0af983c7bb2),因为它是最近安排的任务;要查看此节点上内存使用情况的更多信息,请使用ray logs raylet.out -ip 169.254.181.2。要查看worker的日志,请使用ray logs worker-79a553ea91fe46f95e8384ddf8a8f0a01e3418a975ecd0af983c7bb2*out -ip 169.254.181.2。前10个内存用户:
...
有关如何解决内存不足问题的文档,请参考:https://docs.ray.io/en/latest/ray-core/scheduling/ray-oom-prevention.html。考虑在此节点上提供更多内存或通过请求每个任务更多的CPU来减少任务并行度。设置max_restarts和max_task_retries以在任务因OOM而崩溃时启用重试。要调整kill阈值,请在启动Ray时设置环境变量RAY_memory_usage_threshold。要禁用worker杀死,请将环境变量RAY_memory_monitor_refresh_ms设置为零。
...
vllm.engine.async_llm_engine.AsyncEngineDeadError:任务意外完成。这不应该发生!请在Github上打开一个问题。请参阅上面的堆栈跟踪以获取实际原因。

b5lpy0ml

b5lpy0ml1#

我也遇到了相同的错误。

py49o6xq

py49o6xq2#

在0.2.7版本中也出现了相同的错误,@zhuohan123

3yhwsihp

3yhwsihp3#

在0.3.0版本中,有时也会触发这个。

相关问题