vllm [功能请求]考虑将QUICK内核集成到AWQ量化中,

xjreopfe 于 5个月前发布在其他

关注(0)|答案(5)|浏览(181)

快速：https://github.com/SqueezeBits/QUICK/tree/main

vllm

来源：https://github.com/vllm-project/vllm/issues/2920

5条答案

按热度按时间

ffx8fchx1#

看起来作者们已经在vLLM中实现了这个功能。@JHLEE17 和 @tae-su-kim,你们打算将一个pull request提交到vLLM吗？
来自 QUICK README 的信息：
吞吐量是通过 vLLM 中的 benchmark_throughput 脚本进行评估的。

赞(0）回复(0）举报 6个月前

ibps3vxo2#

你好，vLLM社区，是的，我们计划很快(希望在一周内)发布一个PR。
目前，我们有一个非常hacky版本的vLLM集成——主要是因为预融合层，如qkv和up_proj。我们将找到更好的方法来处理这些，并将我们的PR上游。

赞(0）回复(0）举报 6个月前

qpgpyjmq3#

你好，vLLM社区。是的，我们计划很快(希望在一周内)发布一个PR。目前，我们有一个非常简陋的vLLM集成版本——主要是因为预融合层，如qkv和up_proj。我们将找到更好的方法来处理这些，并将其上游到我们的PR。
做得很好，有没有一个分支可以让我们拉取它？

赞(0）回复(0）举报 6个月前

0aydgbwb4#

你好，vLLM社区，是的，我们计划很快(希望在一周内)发布一个PR。目前我们有一个非常简陋的vLLM集成版本——主要是因为预融合层，如qkv和up_proj。我们将找到更好的方法来处理这些，并将我们的PR上游。
嗨，@tae-su-kim ,这方面有什么进展吗？

赞(0）回复(0）举报 6个月前

2wnc66cl5#

你好 @darrenglow,对于这次巨大的延迟，我们深感抱歉。我们的PoC已经发布在以下分支：
https://github.com/SqueezeBits/vllm-quick/tree/vllm-quick
由于权重打包模式不允许简单地沿着通道维度连接层融合(如QKV、gate_up),当前版本对hf_model_weights_iterator函数应用了一些hacky的解决方法。我们肯定需要重新修改这个函数，以使我们的分支达到部署级别的质量。
然而它仍然有效；请随时探索并给我们一些提示，如果有任何的话，以优雅的方式实现这个功能。谢谢！

赞(0）回复(0）举报 6个月前

我来回答

vllm [功能请求]考虑将QUICK内核集成到AWQ量化中,

5条答案

相关问题

热门标签

最新问答