vllm 如何将llama3-70b部署在具有8个3090 GPU的服务器上，并使用lora和CUDA图形？

yhuiod9q 于 2个月前发布在其他

关注(0)|答案(2)|浏览(27)

当前环境

无

您希望如何使用vllm

我希望在一台拥有8个3090 GPU的服务器上部署llama3-70b模型。当我启用enable_lora开关时，只要我不启用enforce_eager标志，系统肯定会超过内存限制(即使上下文长度减少到128)。然而，当我禁用enable_lora时，它占用大约85%的内存来运行。我想了解启用和禁用lora时CUDA图中内存消耗的差异。
在这种情况下，如何在不超过内存限制的情况下为模型启用CUDA图加速？

来源：https://github.com/vllm-project/vllm/issues/5193

2条答案

按热度按时间

我不熟悉lora部分。如果没有lora,cudagraph不应该消耗太多内存(我认为小于1GB)。cc @Yard1 有关lora的问题。

赞(0）回复(0）举报 2个月前

当使用LoRA时，预计内存使用量会增加，因为它预先分配了GPU缓冲区来存储LoRA权重。我认为这不会改变CUDA图的内存消耗。

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前