vllm API服务器性能

kmpatx3s  于 4个月前  发布在  其他
关注(0)|答案(3)|浏览(112)

在基准测试过程中,我们发现API服务器和AsyncLLM引擎的性能存在差距,请求延迟和吞吐量与手写的gRPC服务器不匹配。我计划对此进行调查。线索如下:

0wi1tuuw

0wi1tuuw1#

一个简单的py-spy分析没有发现任何可疑的内容。

一个假设是_schedule和采样所花费的时间,这会阻塞主线程的网络访问。我认为这是一个相当显著的开销,大约每解码一次就会花费0.5毫秒,并阻塞网络线程。

schedule_time_us: 118, execute_time: 7664, postprocess_time_us: 409
vs3odd8k

vs3odd8k2#

这可能解释了vLLM和DS-FastGen基准测试结果之间的差异。它们的基准测试使用持久客户端模式;据我所知,vLLM的基准测试使用llm.generate()代替。

zsbz8rwp

zsbz8rwp3#

这个问题是否有更新:-)

相关问题