vllm [用法]:如何禁用多LoRa以避免使用Punica?还是Punica是唯一的选择？

iyfamqjs 于 6个月前发布在其他

关注(0)|答案(6)|浏览(99)

我搜索了过时的版本，大家都说multi lora的pulica版本必须>=8.0。因此，我想问一下是否有一个选项，只使用独立的lora,但支持cuda=7.5?
我已经尝试了examples/offline_inference.py,它使用llm.generate仅使用1个lora。但是它仍然运行在pulica上，然后提示需要cuda>=8。

来源：https://github.com/vllm-project/vllm/issues/4434

6条答案

按热度按时间

如果你只有一个LoRa适配器，只需将适配器合并回你的模型，然后你可以直接使用它。

赞(0）回复(0）举报 6个月前

谢谢！
嗯，虽然，这听起来很复杂。如果我想要保存多个LoRa副本...否则它会占用太多空间。

赞(0）回复(0）举报 6个月前

如果你的模型没有使用bfloat16类型进行微调，那么你只需要编译float16类型的内核，而float16类型的内核支持sm>=75。

赞(0）回复(0）举报 6个月前

如果你的模型没有使用bfloat16类型进行微调，那么你只需要编译float16类型的内核和float16类型的内核支持sm>=75。

谢谢，我该如何编译float16类型的内核？
在文档中没有找到相关信息。

赞(0）回复(0）举报 6个月前

您需要注解掉vec_dtypes.cuh和punica_ops.cc中与bf16相关的一些操作。
修改CMakeLists.txt文件，以允许sm75标志。

赞(0）回复(0）举报 6个月前

你需要在 vec_dtypes.cuh 和 punica_ops.cc 中注解掉与 bf16 相关的一些操作
修改 CMakeLists.txt 文件以允许 sm75 标志
你需要在 vec_dtypes.cuh 和 punica_ops.cc 中注解掉与 bf16 相关的一些操作
修改 CMakeLists.txt 文件以允许 sm75 标志
好的，谢谢！这对我来说很有挑战性，我会尝试一下。

赞(0）回复(0）举报 6个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前