关于vllm的讨论
这是一个元RFC,跟踪我们正在优先考虑的一些性能增强工作。
- [RFC]: Isolate OpenAI Server Into Separate Process #6797
- [RFC]: Single Program Multiple Data (SPMD) Worker Control Plane #6556
- [RFC]: A Graph Optimization System in vLLM using torch.compile #6378
待添加:异步和多步骤调度
待添加:异步进程输出
4条答案
按热度按时间n8ghc7c11#
让我们解决这个问题!
sqougxex2#
@SolitaryThinker please pin the multi-step inference issue
zxlwwiss3#
如果我们谈论性能,有人能解释一下sglang是如何在使用vLLM作为后端时比vLLM快50-100%的吗?他们的代码库看起来像是一个纯Python vLLM Package 器。他们为什么这么快?
x3naxklr4#
为了完全透明,我们仍在努力解决这个问题。@KuntaiDu正在复制基准测试:#6794(评论)