vllm [FEATURE] Implement Dynamic SplitFuse

zzzyeukh 于 6个月前发布在其他

关注(0)|答案(6)|浏览(146)

亲爱的vLLM维护者@WoosukKwon和@zhuohan123(@Yard1),
DeepSpeed已经发布了其服务框架，声称比vLLM更快。主要的加速来自于Dynamic SplitFuse技术，它实现了以下功能：

长提示被分解成更小的块，并在多个前向传递(迭代)中进行调度，只有最后的传递执行任何生成操作。
短提示将被组合以恰好填满目标令牌预算。即使是短提示也可以分解以确保预算精确满足，并且前向大小对齐良好。

代码：https://github.com/microsoft/DeepSpeed-MII
背景：https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-fastgen
Llama 13B (1x A100-80GB):

Llama 70B (4x A100x80GB with TP):

来源：https://github.com/vllm-project/vllm/issues/1562

6条答案

按热度按时间

LGTM

赞(0）回复(0）举报 6个月前

你好，现在有什么进展吗？

赞(0）回复(0）举报 6个月前

Do we have an ETA? 😊

赞(0）回复(0）举报 6个月前

你好@WoosukKwon@zhuohan123
vllm中缺少分块预填充实现是一个主要的障碍。关于分块预填充实现的任何时间线或定期沟通进展情况都会非常有帮助，以便进行未来的规划。

赞(0）回复(0）举报 6个月前

保持批次长度一致确实有助于 #2357

赞(0）回复(0）举报 6个月前

看起来有人已经开始着手处理这个问题了：#3106

赞(0）回复(0）举报 6个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前