你好,不确定在这里哪里相关。CTranslate2是否会支持QLoRA?请参阅以下论文以获取更多信息:https://arxiv.org/abs/2305.14314谢谢。
juzqafwq1#
我在使用QLoRA进行微调时有很好的体验,但推理速度使其在生产环境中无法使用。如果CTranslate2支持QLoRA,那将解决一个大问题!
yr9zkbsy2#
真的吗?!如果能分享更多关于使用QLoRA微调模型的推理速度与LoRA相比的信息,将不胜感激。谢谢。
disho6za3#
出于兴趣,你不能只是将适配器权重合并回基础模型,然后用它与Ctranslate2一起使用吗?Peft支持这个功能,但还没有尝试过。
kulphzqa4#
我并没有将QLoRA与传统的LoRA进行比较,我只是运行了QLoRA,并成功地使用常规GPU在几小时内获得了一个主要解决任务的模型。然而,tokens/second和cost/token都比使用GPT3.5 Turbo更差。
0x6upsns5#
Hugging face发布了一篇关于Falcon的QLoRA的及时博客文章:https://huggingface.co/blog/falcon
1u4esq0p6#
我更喜欢这个帖子:https://forum.opennmt.net/t/opennmt-py-v3-2-released-plenty-of-new-features/5366;-)
sh7euo9m7#
我们已经创建了一个脚本,用于将使用QLoRA训练的模型转换为CTranslate2,以加速此处的推理。
7条答案
按热度按时间juzqafwq1#
我在使用QLoRA进行微调时有很好的体验,但推理速度使其在生产环境中无法使用。如果CTranslate2支持QLoRA,那将解决一个大问题!
yr9zkbsy2#
真的吗?!如果能分享更多关于使用QLoRA微调模型的推理速度与LoRA相比的信息,将不胜感激。
谢谢。
disho6za3#
出于兴趣,你不能只是将适配器权重合并回基础模型,然后用它与Ctranslate2一起使用吗?
Peft支持这个功能,但还没有尝试过。
kulphzqa4#
我并没有将QLoRA与传统的LoRA进行比较,我只是运行了QLoRA,并成功地使用常规GPU在几小时内获得了一个主要解决任务的模型。然而,tokens/second和cost/token都比使用GPT3.5 Turbo更差。
0x6upsns5#
Hugging face发布了一篇关于Falcon的QLoRA的及时博客文章:
https://huggingface.co/blog/falcon
1u4esq0p6#
我更喜欢这个帖子:https://forum.opennmt.net/t/opennmt-py-v3-2-released-plenty-of-new-features/5366
;-)
sh7euo9m7#
我们已经创建了一个脚本,用于将使用QLoRA训练的模型转换为CTranslate2,以加速此处的推理。