vllm [Usage]: if I want to run a 34B model，like yi-34B-chat,how can I use multi GPU,I just have A100 40G

f8rj6qna 于 4个月前发布在其他

关注(0)|答案(6)|浏览(88)

你当前的环境

The output of `python collect_env.py`

我想运行一个特定模型的推理。我不知道如何将其与vllm集成。

6条答案

我已经尝试在AsyncEngineArgs中设置engine_use_ray = True或者设置CUDA_VISIBLE_DEVICES = 0,1,但仍然不起作用，GPU0内存不足。

使用Tensor并行大小

感谢，GPU0 OOM问题已经解决，但新问题出现了，它显示" ValueError: 当使用LoRA时，词汇表大小必须是32000 >= vocab_size <= 33024 "。有人能成功地用LoRA加载yi-34B-chat吗？希望得到您的建议。

感谢，GPU0 OOM问题已经解决，但新问题出现了，显示"ValueError: 当使用LoRA时，词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功使用LoRA加载yi-34B-chat吗？希望得到您的建议。
也许可以使用最大模型长度？

感谢，GPU0 OOM问题已经解决，但新问题又出现了，显示"ValueError: 当使用LoRA时，词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功地用LoRA加载yi-34B-chat吗？希望得到您的建议。

"ValueError: 当使用LoRA时，词汇表大小必须在32000 >= vocab_size <= 33024之间"的问题已经被#4015解决了。您可以从主分支构建源代码，或者等待0.4.1版本的发布。在解决此问题后，Yi-34可以成功地加载LoRA。

然而，使用$tensor-parallel-size=2$也会导致内存溢出(OOM),H800-80G * 2。