从错误信息来看,这是一个内存不足导致的OOM(OutOfMemory)错误。你可以尝试以下方法来解决这个问题:
增加可用的GPU内存。你可以通过修改
vllm
服务的配置文件来实现这一点。在配置文件中,找到--memory
参数,将其设置为一个更大的值,例如--memory 20GB
。这将允许vllm
服务使用更多的内存。减少并行任务的数量。你可以通过设置
max_restarts
和max_task_retries
参数来实现这一点。在启动Ray时,设置环境变量RAY_MAX_RESTARTS=3
和RAY_MAX_TASK_RETRIES=3
,这将允许任务在失败时最多重启3次。同时,你还可以通过设置num_cpus_per_task
参数来限制每个任务使用的CPU数量。例如,将其设置为num_cpus_per_task=4
,这将限制每个任务最多使用4个CPU。调整杀死阈值。你可以通过设置环境变量
RAY_memory_usage_threshold
来调整Ray的杀死阈值。将其设置为一个较小的值,例如RAY_memory_usage_threshold`=500MB`,这将使Ray在节点内存低于这个值时自动杀死任务。要禁用worker杀死,可以将环境变量
RAY_memory_monitor_refresh_ms``设置为零。
希望这些建议能帮助你解决问题。
vllm.engine.async_llm_engine.AsyncEngineDeadError:任务意外完成。这不应该发生!请在Github上打开一个问题。上面的堆栈跟踪显示了实际原因。
3条答案
按热度按时间3z6pesqy1#
我遇到了相同的错误。@WoosukKwon@simon-mo 你能帮我们解决一下吗?在vllm中减少
swap-space
,或者在ray中更改RAY_memory_usage_threshold
或RAY_memory_monitor_refresh_ms
?ipakzgxi2#
我也遇到了同样的问题。其他人解决了这个问题吗?
flmtquvp3#
嘿,这个问题有什么更新吗?