vllm [用法]:如何将一些层卸载到CPU上?

gkn4icbw  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(55)

当前环境

您希望如何使用VLLM

我想使用VLLM加载qwen2-14B-chat,但我只有一块RTX4090(24G)。
能否让vllm将一些层卸载到CPU上,其他层卸载到GPU上?
我知道transformers-accelerate和llama.cpp可以做到这一点。但我想在VLLM中使用多LoRa开关功能。

1szpjjfi

1szpjjfi5#

使用CPU内存并不是一个好主意,因为VLLM是用于加速推理的。
有一个权衡选择,如果我们可以减少一些权重以适应较差的HBM,更多的模型可以减少一些Maven等。
查看这个:huggingface/transformers#30552

相关问题