快速:https://github.com/SqueezeBits/QUICK/tree/main
ffx8fchx1#
看起来作者们已经在vLLM中实现了这个功能。@JHLEE17 和 @tae-su-kim,你们打算将一个pull request提交到vLLM吗?来自 QUICK README 的信息:吞吐量是通过 vLLM 中的 benchmark_throughput 脚本进行评估的。
ibps3vxo2#
你好,vLLM社区,是的,我们计划很快(希望在一周内)发布一个PR。目前,我们有一个非常hacky版本的vLLM集成——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将我们的PR上游。
qpgpyjmq3#
你好,vLLM社区。是的,我们计划很快(希望在一周内)发布一个PR。目前,我们有一个非常简陋的vLLM集成版本——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将其上游到我们的PR。做得很好,有没有一个分支可以让我们拉取它?
0aydgbwb4#
你好,vLLM社区,是的,我们计划很快(希望在一周内)发布一个PR。目前我们有一个非常简陋的vLLM集成版本——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将我们的PR上游。嗨,@tae-su-kim ,这方面有什么进展吗?
2wnc66cl5#
你好 @darrenglow,对于这次巨大的延迟,我们深感抱歉。我们的PoC已经发布在以下分支:https://github.com/SqueezeBits/vllm-quick/tree/vllm-quick由于权重打包模式不允许简单地沿着通道维度连接层融合(如QKV、gate_up),当前版本对hf_model_weights_iterator函数应用了一些hacky的解决方法。我们肯定需要重新修改这个函数,以使我们的分支达到部署级别的质量。然而它仍然有效;请随时探索并给我们一些提示,如果有任何的话,以优雅的方式实现这个功能。谢谢!
5条答案
按热度按时间ffx8fchx1#
看起来作者们已经在vLLM中实现了这个功能。@JHLEE17 和 @tae-su-kim,你们打算将一个pull request提交到vLLM吗?
来自 QUICK README 的信息:
吞吐量是通过 vLLM 中的 benchmark_throughput 脚本进行评估的。
ibps3vxo2#
你好,vLLM社区,是的,我们计划很快(希望在一周内)发布一个PR。
目前,我们有一个非常hacky版本的vLLM集成——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将我们的PR上游。
qpgpyjmq3#
你好,vLLM社区。是的,我们计划很快(希望在一周内)发布一个PR。目前,我们有一个非常简陋的vLLM集成版本——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将其上游到我们的PR。
做得很好,有没有一个分支可以让我们拉取它?
0aydgbwb4#
你好,vLLM社区,是的,我们计划很快(希望在一周内)发布一个PR。目前我们有一个非常简陋的vLLM集成版本——主要是因为预融合层,如qkv和up_proj。我们将找到更好的方法来处理这些,并将我们的PR上游。
嗨,@tae-su-kim ,这方面有什么进展吗?
2wnc66cl5#
你好 @darrenglow,对于这次巨大的延迟,我们深感抱歉。我们的PoC已经发布在以下分支:
https://github.com/SqueezeBits/vllm-quick/tree/vllm-quick
由于权重打包模式不允许简单地沿着通道维度连接层融合(如QKV、gate_up),当前版本对hf_model_weights_iterator函数应用了一些hacky的解决方法。我们肯定需要重新修改这个函数,以使我们的分支达到部署级别的质量。
然而它仍然有效;请随时探索并给我们一些提示,如果有任何的话,以优雅的方式实现这个功能。谢谢!