vllm 支持生产级服务器进行推理[Gunicorn vs Unicorn]?

6ojccjat  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(37)

你好,
在使用混合8x7B OOB模型进行模型NFRs时,vLLM堆栈默认在api_server.py中使用unicorn。在使用locust增加QPS时,我猜测unicorn可能成为瓶颈,无法扩展。关于添加gunicorn支持的想法/看法,以及如何在生产环境中使用vLLM堆栈部署模型以提供服务?
在2 QPS、2个A100 GPU的情况下运行,错误率:3%,错误状态码:0(表示连接问题),GPU利用率:90%,每秒令牌数:约2100。
在4.1 QPS、4个A100 GPU的情况下运行,错误率:13%,错误状态码:0(表示连接问题),GPU利用率:75%,每秒令牌数:约4100。
推断:

  1. 当我增加并发用户以提高模型吞吐量时,连接问题开始出现很多。
  2. 从数量上看,在100-200个用户时,错误率约为25-35%。
hjqgdpho

hjqgdpho1#

你已经验证过连接问题是由unicorn引起的,而不是vLLM错误吗?

相关问题