text-generation-inference SPQR discussion

z2acfund  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(82)

功能请求

https://github.com/Vahe1994/SpQR
@TimDettmers已经在Twitter上发布了新的3.35比特每参数技术,由SPQR提供。我正在关注他们的进展,不久的将来他们希望添加推理代码。

动机

#438
由于已经有一篇关于gptq的PR,它仍然需要在4位精度下超过4比特每参数,所以我认为你可能也对这种新技术持开放态度。

你的贡献

虽然我今天第一次尝试了推理服务器(真丢人),并直接将其添加到一些生产部署中作为替代品,但我对这个代码库非常陌生。如果推理代码发布,我可以尝试将其适应到这个仓库,但如果作者本人或推理服务器团队已经有计划采用这一部分,我肯定不会对此感到遗憾😁

zqry0prt

zqry0prt1#

你好!
感谢你对这个仓库和spqr的兴趣!我们正在与tim沟通,尽快将spqr添加到tgi中,敬请期待 :)

axkjgtzd

axkjgtzd2#

你好,Olivier,只是出于兴趣
他们有没有告诉你关于时间的任何信息?
看起来SPQR的去重PR很快就会合并,希望模型的保存功能也能快速跟进。

sdnqo3pr

sdnqo3pr3#

刚刚发现模型保存功能还在开发中。

yvt65v4c

yvt65v4c4#

这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。

相关问题