text-generation-inference QLora支持

cxfofazt  于 2个月前  发布在  其他
关注(0)|答案(7)|浏览(81)

功能请求

在bitsandbytes发布时添加4位量化支持。

动机

轻松运行大型模型并提高性能

你的贡献

如果这是一个相对容易的初步任务或2,我可以发起一个PR。

busg9geu

busg9geu1#

你好,

想知道4位比特与8位比特的推断性能有何不同。是否会更好?根据我的经验,8位比特大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。

kx1ctssn

kx1ctssn2#

你好,

想知道bitsandbytes 4bit与8bit的推理性能相比会有什么不同吗?是否会更好?根据我的经验,8bit大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。

计划在这个服务器上支持GPTQ模型吗?

zphenhs4

zphenhs43#

根据我的经验,8位相较于fp16大约慢8倍。是的,bitsandbytes会增加很多CPU瓶颈,内核运行速度比原生的要慢。这是这种在线量化策略的预期效果。

那么,bitsandbytes 4位与8位相比的推理性能如何呢?

我们正在与bnb的作者合作,但我目前还没有准备好分享这些数字。

GPTQ(等待它在这个服务器上可用)

这将在未来的某个时候提供。我们需要对设计进行更多的迭代,但它已经在为我们的Huggingface Inference API的一些关键模型提供动力了。

2mbi3lxu

2mbi3lxu4#

感谢@OlivierDehaene,LORA有支持吗?

nc1teljy

nc1teljy5#

是的,使用bnb进行4位推理非常慢。
GPTQ相当快。在我的硬件上,实际上比使用fp16进行推理更快。
有一个名为Autogptq(https://github.com/PanQiWei/AutoGPTQ)的高级库,只需几行代码就可以添加GPTQ支持(原始的gptq-for-llama库更难集成,往往会出现随机破坏性更改)。
TLDR:希望添加GPTQ支持。这是我加载大型模型的唯一方法。

vtwuwzda

vtwuwzda6#

希望GPTQ支持添加
有一个PR已经打开,为llama #267添加GPTQ支持,不确定它是否会被修改以支持其他模型。期待这个。

pdtvr36n

pdtvr36n7#

这个PR不是,这个PR是脏活累活,有很多工作要做,但是的,所有模型都会尽可能地在开箱即用的情况下得到支持。

相关问题