你当前的环境
The output of `python collect_env.py`
我想运行一个特定模型的推理。我不知道如何将其与vllm集成。
pu82cl6c1#
我已经尝试在AsyncEngineArgs中设置engine_use_ray = True或者设置CUDA_VISIBLE_DEVICES = 0,1,但仍然不起作用,GPU0内存不足。
0s7z1bwu2#
使用Tensor并行大小
uqcuzwp83#
感谢,GPU0 OOM问题已经解决,但新问题出现了,它显示" ValueError: 当使用LoRA时,词汇表大小必须是32000 >= vocab_size <= 33024 "。有人能成功地用LoRA加载yi-34B-chat吗?希望得到您的建议。
vu8f3i0k4#
感谢,GPU0 OOM问题已经解决,但新问题出现了,显示"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功使用LoRA加载yi-34B-chat吗?希望得到您的建议。也许可以使用最大模型长度?
mqxuamgl5#
感谢,GPU0 OOM问题已经解决,但新问题又出现了,显示"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功地用LoRA加载yi-34B-chat吗?希望得到您的建议。
"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间"的问题已经被#4015解决了。您可以从主分支构建源代码,或者等待0.4.1版本的发布。在解决此问题后,Yi-34可以成功地加载LoRA。
oknwwptz6#
然而,使用$tensor-parallel-size=2$也会导致内存溢出(OOM),H800-80G * 2。
6条答案
按热度按时间pu82cl6c1#
我已经尝试在AsyncEngineArgs中设置engine_use_ray = True或者设置CUDA_VISIBLE_DEVICES = 0,1,但仍然不起作用,GPU0内存不足。
0s7z1bwu2#
使用Tensor并行大小
uqcuzwp83#
感谢,GPU0 OOM问题已经解决,但新问题出现了,它显示" ValueError: 当使用LoRA时,词汇表大小必须是32000 >= vocab_size <= 33024 "。有人能成功地用LoRA加载yi-34B-chat吗?希望得到您的建议。
vu8f3i0k4#
感谢,GPU0 OOM问题已经解决,但新问题出现了,显示"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功使用LoRA加载yi-34B-chat吗?希望得到您的建议。
也许可以使用最大模型长度?
mqxuamgl5#
感谢,GPU0 OOM问题已经解决,但新问题又出现了,显示"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间",有人能成功地用LoRA加载yi-34B-chat吗?希望得到您的建议。
"ValueError: 当使用LoRA时,词汇表大小必须在32000 >= vocab_size <= 33024之间"的问题已经被#4015解决了。您可以从主分支构建源代码,或者等待0.4.1版本的发布。在解决此问题后,Yi-34可以成功地加载LoRA。
oknwwptz6#
然而,使用$tensor-parallel-size=2$也会导致内存溢出(OOM),H800-80G * 2。