vllm [Usage]: if I want to run a 34B model,like yi-34B-chat,how can I use multi GPU,I just have A100 40G

f8rj6qna  于 3个月前  发布在  其他
关注(0)|答案(6)|浏览(51)

你当前的环境

The output of `python collect_env.py`

你希望如何使用vllm

我想运行一个特定模型的推理。我不知道如何将其与vllm集成。

pu82cl6c

pu82cl6c1#

我已经尝试在AsyncEngineArgs中设置engine_use_ray = True或者设置CUDA_VISIBLE_DEVICES = 0,1,但仍然不起作用,GPU0内存不足。

0s7z1bwu

0s7z1bwu2#

使用Tensor并行大小

uqcuzwp8

uqcuzwp83#

感谢,GPU0 OOM问题已经解决,但新问题出现了,它显示" ValueError: 当使用LoRA时,词汇表大小必须是32000 >= vocab_size <= 33024 "。有人能成功地用LoRA加载yi-34B-chat吗?希望得到您的建议。

vu8f3i0k

vu8f3i0k4#

感谢,GPU0 OOM问题已经解决,但新问题出现了,显示"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功使用LoRA加载yi-34B-chat吗?希望得到您的建议。
也许可以使用最大模型长度?

mqxuamgl

mqxuamgl5#

感谢,GPU0 OOM问题已经解决,但新问题又出现了,显示"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功地用LoRA加载yi-34B-chat吗?希望得到您的建议。

"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间"的问题已经被#4015解决了。您可以从主分支构建源代码,或者等待0.4.1版本的发布。在解决此问题后,Yi-34可以成功地加载LoRA。

oknwwptz

oknwwptz6#

然而,使用$tensor-parallel-size=2$也会导致内存溢出(OOM),H800-80G * 2。

相关问题