text-generation-inference 加载eetq模型

fae0ux8s  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(28)

功能请求

你好,
我发现eetq量化非常适合我的需求,但是加载时间非常慢。
我尝试提前量化模型,然后直接加载它,希望能够减少初始化时间,但似乎这是不可能的。
能否添加支持,用于加载已经量化的eetq模型以提高初始化时间?
谢谢!

动机

提高eetq模型的初始化时间

你的贡献

我会尝试

kjthegm6

kjthegm61#

你好,@meitalbensinai,正如你所经历的那样。在TGI中目前还无法加载量化的EETQ模型。根据@Narsil的说法,这应该是相当简单的。NetEase-FuXi/EETQ#10(评论)。请随时尝试一下。在Transformers集成中,我们没有遇到重新加载量化模型的问题-> here

相关问题