无
我想使用VLLM加载qwen2-14B-chat,但我只有一块RTX4090(24G)。能否让vllm将一些层卸载到CPU上,其他层卸载到GPU上?我知道transformers-accelerate和llama.cpp可以做到这一点。但我想在VLLM中使用多LoRa开关功能。
41ik7eoe1#
#3563
mrphzbgm2#
#627
bxfogqkk3#
bd-iaas-us#1
n1bvdmb64#
bd-iaas-us#3
1szpjjfi5#
使用CPU内存并不是一个好主意,因为VLLM是用于加速推理的。有一个权衡选择,如果我们可以减少一些权重以适应较差的HBM,更多的模型可以减少一些Maven等。查看这个:huggingface/transformers#30552
5条答案
按热度按时间41ik7eoe1#
#3563
mrphzbgm2#
#627
bxfogqkk3#
bd-iaas-us#1
n1bvdmb64#
bd-iaas-us#3
1szpjjfi5#
使用CPU内存并不是一个好主意,因为VLLM是用于加速推理的。
有一个权衡选择,如果我们可以减少一些权重以适应较差的HBM,更多的模型可以减少一些Maven等。
查看这个:huggingface/transformers#30552