vllm [用法]:如何禁用多LoRa以避免使用Punica?还是Punica是唯一的选择?

iyfamqjs  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(71)

我搜索了过时的版本,大家都说multi lora的pulica版本必须>=8.0。因此,我想问一下是否有一个选项,只使用独立的lora,但支持cuda=7.5?
我已经尝试了examples/offline_inference.py,它使用llm.generate仅使用1个lora。但是它仍然运行在pulica上,然后提示需要cuda>=8。

wvt8vs2t

wvt8vs2t1#

如果你只有一个LoRa适配器,只需将适配器合并回你的模型,然后你可以直接使用它。

r7xajy2e

r7xajy2e2#

谢谢!
嗯,虽然,这听起来很复杂。如果我想要保存多个LoRa副本...否则它会占用太多空间。

nqwrtyyt

nqwrtyyt3#

如果你的模型没有使用bfloat16类型进行微调,那么你只需要编译float16类型的内核,而float16类型的内核支持sm>=75

fdbelqdn

fdbelqdn4#

如果你的模型没有使用bfloat16类型进行微调,那么你只需要编译float16类型的内核和float16类型的内核支持sm>=75

谢谢,我该如何编译float16类型的内核?
在文档中没有找到相关信息。

jfewjypa

jfewjypa5#

  1. 您需要注解掉vec_dtypes.cuhpunica_ops.cc中与bf16相关的一些操作。
  2. 修改CMakeLists.txt文件,以允许sm75标志。
azpvetkf

azpvetkf6#

  1. 你需要在 vec_dtypes.cuhpunica_ops.cc 中注解掉与 bf16 相关的一些操作
  2. 修改 CMakeLists.txt 文件以允许 sm75 标志
  3. 你需要在 vec_dtypes.cuhpunica_ops.cc 中注解掉与 bf16 相关的一些操作
  4. 修改 CMakeLists.txt 文件以允许 sm75 标志
    好的,谢谢!这对我来说很有挑战性,我会尝试一下。

相关问题