vllm [功能请求]考虑将QUICK内核集成到AWQ量化中,

xjreopfe  于 5个月前  发布在  其他
关注(0)|答案(5)|浏览(181)
ffx8fchx

ffx8fchx1#

看起来作者们已经在vLLM中实现了这个功能。@JHLEE17 和 @tae-su-kim,你们打算将一个pull request提交到vLLM吗?
来自 QUICK README 的信息:
吞吐量是通过 vLLM 中的 benchmark_throughput 脚本进行评估的。

ibps3vxo

ibps3vxo2#

你好,vLLM社区,是的,我们计划很快(希望在一周内)发布一个PR。
目前,我们有一个非常hacky版本的vLLM集成——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将我们的PR上游。

qpgpyjmq

qpgpyjmq3#

你好,vLLM社区。是的,我们计划很快(希望在一周内)发布一个PR。目前,我们有一个非常简陋的vLLM集成版本——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将其上游到我们的PR。
做得很好,有没有一个分支可以让我们拉取它?

0aydgbwb

0aydgbwb4#

你好,vLLM社区,是的,我们计划很快(希望在一周内)发布一个PR。目前我们有一个非常简陋的vLLM集成版本——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将我们的PR上游。
嗨,@tae-su-kim ,这方面有什么进展吗?

2wnc66cl

2wnc66cl5#

你好 @darrenglow,对于这次巨大的延迟,我们深感抱歉。我们的PoC已经发布在以下分支:
https://github.com/SqueezeBits/vllm-quick/tree/vllm-quick
由于权重打包模式不允许简单地沿着通道维度连接层融合(如QKV、gate_up),当前版本对hf_model_weights_iterator函数应用了一些hacky的解决方法。我们肯定需要重新修改这个函数,以使我们的分支达到部署级别的质量。
然而它仍然有效;请随时探索并给我们一些提示,如果有任何的话,以优雅的方式实现这个功能。谢谢!

相关问题