vllm 结合多LoRa和量化

dzhpxtsq  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(93)

没有根本原因说明为什么多LoRA不能与量化模型一起工作。我们很可能希望保持LoRA的未量化状态,并在应用具有punica内核的LoRA之前对基本模型输出进行去量化。这似乎也是其他项目中存在的现象。

  • 最初由@Yard1在#1804(评论)中发布*
ocebsuys

ocebsuys1#

关于这个问题,大家有没有取得什么进展?或者有人尝试过使用不同的量化来测试多LoRa,看看哪种方法可能有效吗?

ntjbwcob

ntjbwcob2#

Yard1,这个支持有什么计划吗?这真的取决于这个很棒的功能,也需要了解实际效果。谢谢。

相关问题