vllm [用法]:如何将一些层卸载到CPU上？

gkn4icbw 于 6个月前发布在其他

关注(0)|答案(5)|浏览(115)

当前环境

无

您希望如何使用VLLM

我想使用VLLM加载qwen2-14B-chat,但我只有一块RTX4090(24G)。
能否让vllm将一些层卸载到CPU上，其他层卸载到GPU上？
我知道transformers-accelerate和llama.cpp可以做到这一点。但我想在VLLM中使用多LoRa开关功能。

来源：https://github.com/vllm-project/vllm/issues/3931

5条答案

按热度按时间

赞(0）回复(0）举报 6个月前

赞(0）回复(0）举报 6个月前

赞(0）回复(0）举报 6个月前

赞(0）回复(0）举报 6个月前

使用CPU内存并不是一个好主意，因为VLLM是用于加速推理的。
有一个权衡选择，如果我们可以减少一些权重以适应较差的HBM,更多的模型可以减少一些Maven等。
查看这个：huggingface/transformers#30552

赞(0）回复(0）举报 6个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前