text-generation-inference QLora支持

cxfofazt 于 2个月前发布在其他

关注(0)|答案(7)|浏览(81)

功能请求

在bitsandbytes发布时添加4位量化支持。

动机

轻松运行大型模型并提高性能

你的贡献

如果这是一个相对容易的初步任务或2,我可以发起一个PR。

text-generation-inference

来源：https://github.com/huggingface/text-generation-inference/issues/381

7条答案

按热度按时间

你好，

想知道4位比特与8位比特的推断性能有何不同。是否会更好？根据我的经验，8位比特大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。

赞(0）回复(0）举报 2个月前

你好，

想知道bitsandbytes 4bit与8bit的推理性能相比会有什么不同吗？是否会更好？根据我的经验，8bit大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。

计划在这个服务器上支持GPTQ模型吗？

赞(0）回复(0）举报 2个月前

根据我的经验，8位相较于fp16大约慢8倍。是的，bitsandbytes会增加很多CPU瓶颈，内核运行速度比原生的要慢。这是这种在线量化策略的预期效果。

那么，bitsandbytes 4位与8位相比的推理性能如何呢？

我们正在与bnb的作者合作，但我目前还没有准备好分享这些数字。

GPTQ(等待它在这个服务器上可用)

这将在未来的某个时候提供。我们需要对设计进行更多的迭代，但它已经在为我们的Huggingface Inference API的一些关键模型提供动力了。

赞(0）回复(0）举报 2个月前

感谢@OlivierDehaene,LORA有支持吗？

赞(0）回复(0）举报 2个月前

是的，使用bnb进行4位推理非常慢。
GPTQ相当快。在我的硬件上，实际上比使用fp16进行推理更快。
有一个名为Autogptq(https://github.com/PanQiWei/AutoGPTQ)的高级库，只需几行代码就可以添加GPTQ支持(原始的gptq-for-llama库更难集成，往往会出现随机破坏性更改)。
TLDR:希望添加GPTQ支持。这是我加载大型模型的唯一方法。

赞(0）回复(0）举报 2个月前

希望GPTQ支持添加
有一个PR已经打开，为llama #267添加GPTQ支持，不确定它是否会被修改以支持其他模型。期待这个。

赞(0）回复(0）举报 2个月前

这个PR不是，这个PR是脏活累活，有很多工作要做，但是的，所有模型都会尽可能地在开箱即用的情况下得到支持。

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前