text-generation-inference DistServe支持

lqfhib0f  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(31)

功能请求

https://github.com/LLMServe/DistServe

动机

DistServe通过将预填充和解码计算进行分离,提高了大型语言模型(LLMs)服务的性能。现有的LLM服务系统将这两个阶段放在一起,并在所有用户和请求之间批量计算预填充和解码。我们发现这种策略不仅会导致强烈的预填充-解码干扰,而且还会将两个阶段的资源分配和并行计划联系起来。在DistServe中,您可以简单地设置两个阶段的并行配置和调度策略,它将像单个示例一样工作,自动处理KV-Cache通信和内存管理。

bqujaahr

bqujaahr1#

感谢您的请求@farzanehnakhaee70!我正在确保团队看到它。
通常,推动我们工具包增加的因素是社区对它的兴奋。在您的消息上获得很多👍将表明它对很多人来说很重要:)

相关问题