我搜索了过时的版本,大家都说multi lora的pulica版本必须>=8.0。因此,我想问一下是否有一个选项,只使用独立的lora,但支持cuda=7.5?我已经尝试了examples/offline_inference.py,它使用llm.generate仅使用1个lora。但是它仍然运行在pulica上,然后提示需要cuda>=8。
wvt8vs2t1#
如果你只有一个LoRa适配器,只需将适配器合并回你的模型,然后你可以直接使用它。
r7xajy2e2#
谢谢!嗯,虽然,这听起来很复杂。如果我想要保存多个LoRa副本...否则它会占用太多空间。
nqwrtyyt3#
如果你的模型没有使用bfloat16类型进行微调,那么你只需要编译float16类型的内核,而float16类型的内核支持sm>=75。
bfloat16
float16
sm>=75
fdbelqdn4#
如果你的模型没有使用bfloat16类型进行微调,那么你只需要编译float16类型的内核和float16类型的内核支持sm>=75。
谢谢,我该如何编译float16类型的内核?在文档中没有找到相关信息。
jfewjypa5#
vec_dtypes.cuh
punica_ops.cc
bf16
CMakeLists.txt
sm75
azpvetkf6#
6条答案
按热度按时间wvt8vs2t1#
如果你只有一个LoRa适配器,只需将适配器合并回你的模型,然后你可以直接使用它。
r7xajy2e2#
谢谢!
嗯,虽然,这听起来很复杂。如果我想要保存多个LoRa副本...否则它会占用太多空间。
nqwrtyyt3#
如果你的模型没有使用
bfloat16
类型进行微调,那么你只需要编译float16
类型的内核,而float16
类型的内核支持sm>=75
。fdbelqdn4#
如果你的模型没有使用
bfloat16
类型进行微调,那么你只需要编译float16
类型的内核和float16
类型的内核支持sm>=75
。谢谢,我该如何编译float16类型的内核?
在文档中没有找到相关信息。
jfewjypa5#
vec_dtypes.cuh
和punica_ops.cc
中与bf16
相关的一些操作。CMakeLists.txt
文件,以允许sm75
标志。azpvetkf6#
vec_dtypes.cuh
和punica_ops.cc
中注解掉与bf16
相关的一些操作CMakeLists.txt
文件以允许sm75
标志vec_dtypes.cuh
和punica_ops.cc
中注解掉与bf16
相关的一些操作CMakeLists.txt
文件以允许sm75
标志好的,谢谢!这对我来说很有挑战性,我会尝试一下。