你好,我发现eetq量化非常适合我的需求,但是加载时间非常慢。我尝试提前量化模型,然后直接加载它,希望能够减少初始化时间,但似乎这是不可能的。能否添加支持,用于加载已经量化的eetq模型以提高初始化时间?谢谢!
提高eetq模型的初始化时间
我会尝试
kjthegm61#
你好,@meitalbensinai,正如你所经历的那样。在TGI中目前还无法加载量化的EETQ模型。根据@Narsil的说法,这应该是相当简单的。NetEase-FuXi/EETQ#10(评论)。请随时尝试一下。在Transformers集成中,我们没有遇到重新加载量化模型的问题-> here。
1条答案
按热度按时间kjthegm61#
你好,@meitalbensinai,正如你所经历的那样。在TGI中目前还无法加载量化的EETQ模型。根据@Narsil的说法,这应该是相当简单的。NetEase-FuXi/EETQ#10(评论)。请随时尝试一下。在Transformers集成中,我们没有遇到重新加载量化模型的问题-> here。