vllm [用法]:多个模型时出现内存不足 ```markdown [用法]:多个模型时出现内存不足 ```

t5fffqht  于 3个月前  发布在  其他
关注(0)|答案(1)|浏览(25)

当前环境

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 224.00 MiB. GPU

您希望如何使用vllm

我正在运行一个评估框架,该框架正在评估多个模型。vllm似乎在初始化第二个模型(具有相同的变量名)后无法释放gpu内存,如何在每次调用vLLMEngine时释放gpu内存 llm = LLM(new_model)

相关问题