vllm [FEATURE] Implement Dynamic SplitFuse

zzzyeukh  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(89)

亲爱的vLLM维护者@WoosukKwon和@zhuohan123(@Yard1),
DeepSpeed已经发布了其服务框架,声称比vLLM更快。主要的加速来自于Dynamic SplitFuse技术,它实现了以下功能:

  • 长提示被分解成更小的块,并在多个前向传递(迭代)中进行调度,只有最后的传递执行任何生成操作。
  • 短提示将被组合以恰好填满目标令牌预算。即使是短提示也可以分解以确保预算精确满足,并且前向大小对齐良好。

代码:https://github.com/microsoft/DeepSpeed-MII
背景:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-fastgen
Llama 13B (1x A100-80GB):

Llama 70B (4x A100x80GB with TP):

4nkexdtk

4nkexdtk2#

你好,现在有什么进展吗?

2admgd59

2admgd593#

Do we have an ETA? 😊

qvtsj1bj

qvtsj1bj4#

你好@WoosukKwon@zhuohan123
vllm中缺少分块预填充实现是一个主要的障碍。关于分块预填充实现的任何时间线或定期沟通进展情况都会非常有帮助,以便进行未来的规划。

g2ieeal7

g2ieeal75#

保持批次长度一致确实有助于 #2357

mrfwxfqh

mrfwxfqh6#

看起来有人已经开始着手处理这个问题了:#3106

相关问题