在bitsandbytes发布时添加4位量化支持。
轻松运行大型模型并提高性能
如果这是一个相对容易的初步任务或2,我可以发起一个PR。
busg9geu1#
你好,
想知道4位比特与8位比特的推断性能有何不同。是否会更好?根据我的经验,8位比特大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。
kx1ctssn2#
想知道bitsandbytes 4bit与8bit的推理性能相比会有什么不同吗?是否会更好?根据我的经验,8bit大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。
计划在这个服务器上支持GPTQ模型吗?
zphenhs43#
根据我的经验,8位相较于fp16大约慢8倍。是的,bitsandbytes会增加很多CPU瓶颈,内核运行速度比原生的要慢。这是这种在线量化策略的预期效果。
那么,bitsandbytes 4位与8位相比的推理性能如何呢?
我们正在与bnb的作者合作,但我目前还没有准备好分享这些数字。
GPTQ(等待它在这个服务器上可用)
这将在未来的某个时候提供。我们需要对设计进行更多的迭代,但它已经在为我们的Huggingface Inference API的一些关键模型提供动力了。
2mbi3lxu4#
感谢@OlivierDehaene,LORA有支持吗?
nc1teljy5#
是的,使用bnb进行4位推理非常慢。GPTQ相当快。在我的硬件上,实际上比使用fp16进行推理更快。有一个名为Autogptq(https://github.com/PanQiWei/AutoGPTQ)的高级库,只需几行代码就可以添加GPTQ支持(原始的gptq-for-llama库更难集成,往往会出现随机破坏性更改)。TLDR:希望添加GPTQ支持。这是我加载大型模型的唯一方法。
vtwuwzda6#
希望GPTQ支持添加有一个PR已经打开,为llama #267添加GPTQ支持,不确定它是否会被修改以支持其他模型。期待这个。
pdtvr36n7#
这个PR不是,这个PR是脏活累活,有很多工作要做,但是的,所有模型都会尽可能地在开箱即用的情况下得到支持。
7条答案
按热度按时间busg9geu1#
你好,
想知道4位比特与8位比特的推断性能有何不同。是否会更好?根据我的经验,8位比特大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。
kx1ctssn2#
你好,
想知道bitsandbytes 4bit与8bit的推理性能相比会有什么不同吗?是否会更好?根据我的经验,8bit大约比fp16慢8倍。不过我会尝试llama GPTQ(等待它在这个服务器上可用)。
计划在这个服务器上支持GPTQ模型吗?
zphenhs43#
根据我的经验,8位相较于fp16大约慢8倍。是的,bitsandbytes会增加很多CPU瓶颈,内核运行速度比原生的要慢。这是这种在线量化策略的预期效果。
那么,bitsandbytes 4位与8位相比的推理性能如何呢?
我们正在与bnb的作者合作,但我目前还没有准备好分享这些数字。
GPTQ(等待它在这个服务器上可用)
这将在未来的某个时候提供。我们需要对设计进行更多的迭代,但它已经在为我们的Huggingface Inference API的一些关键模型提供动力了。
2mbi3lxu4#
感谢@OlivierDehaene,LORA有支持吗?
nc1teljy5#
是的,使用bnb进行4位推理非常慢。
GPTQ相当快。在我的硬件上,实际上比使用fp16进行推理更快。
有一个名为Autogptq(https://github.com/PanQiWei/AutoGPTQ)的高级库,只需几行代码就可以添加GPTQ支持(原始的gptq-for-llama库更难集成,往往会出现随机破坏性更改)。
TLDR:希望添加GPTQ支持。这是我加载大型模型的唯一方法。
vtwuwzda6#
希望GPTQ支持添加
有一个PR已经打开,为llama #267添加GPTQ支持,不确定它是否会被修改以支持其他模型。期待这个。
pdtvr36n7#
这个PR不是,这个PR是脏活累活,有很多工作要做,但是的,所有模型都会尽可能地在开箱即用的情况下得到支持。