vllm 任务因节点内存不足而被终止,

bt1cpqcv  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(76)

从错误信息来看,这是一个内存不足导致的OOM(OutOfMemory)错误。你可以尝试以下方法来解决这个问题:

  1. 增加可用的GPU内存。你可以通过修改vllm服务的配置文件来实现这一点。在配置文件中,找到--memory参数,将其设置为一个更大的值,例如--memory 20GB。这将允许vllm服务使用更多的内存。

  2. 减少并行任务的数量。你可以通过设置max_restartsmax_task_retries参数来实现这一点。在启动Ray时,设置环境变量RAY_MAX_RESTARTS=3RAY_MAX_TASK_RETRIES=3,这将允许任务在失败时最多重启3次。同时,你还可以通过设置num_cpus_per_task参数来限制每个任务使用的CPU数量。例如,将其设置为num_cpus_per_task=4,这将限制每个任务最多使用4个CPU。

  3. 调整杀死阈值。你可以通过设置环境变量RAY_memory_usage_threshold来调整Ray的杀死阈值。将其设置为一个较小的值,例如RAY_memory_usage_threshold`=500MB`,这将使Ray在节点内存低于这个值时自动杀死任务。要禁用worker杀死,可以将环境变量RAY_memory_monitor_refresh_ms``设置为零。

希望这些建议能帮助你解决问题。
vllm.engine.async_llm_engine.AsyncEngineDeadError:任务意外完成。这不应该发生!请在Github上打开一个问题。上面的堆栈跟踪显示了实际原因。

3z6pesqy

3z6pesqy1#

我遇到了相同的错误。@WoosukKwon@simon-mo 你能帮我们解决一下吗?在vllm中减少swap-space,或者在ray中更改RAY_memory_usage_thresholdRAY_memory_monitor_refresh_ms?

ipakzgxi

ipakzgxi2#

我也遇到了同样的问题。其他人解决了这个问题吗?

flmtquvp

flmtquvp3#

嘿,这个问题有什么更新吗?

相关问题