text-generation-inference DistServe支持

lqfhib0f 于 2个月前发布在其他

关注(0)|答案(1)|浏览(31)

功能请求

动机

DistServe通过将预填充和解码计算进行分离，提高了大型语言模型(LLMs)服务的性能。现有的LLM服务系统将这两个阶段放在一起，并在所有用户和请求之间批量计算预填充和解码。我们发现这种策略不仅会导致强烈的预填充-解码干扰，而且还会将两个阶段的资源分配和并行计划联系起来。在DistServe中，您可以简单地设置两个阶段的并行配置和调度策略，它将像单个示例一样工作，自动处理KV-Cache通信和内存管理。

text-generation-inference

来源：https://github.com/huggingface/text-generation-inference/issues/2183