vllm [用法]:每个请求获取时间统计信息

vpfxa7rd  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(24)

我想知道是否有办法在每次请求时获取使用统计数据(可能通过一个标志参数):
我想了解队列等待时间、num_prompt_tokens、num_generated_tokens、预填充阶段所需时间、解码阶段所需时间等,以及如何为每个请求返回这些信息。
如果还没有这样的功能,请告诉我如何添加这个功能。
谢谢。

e4eetjau

e4eetjau1#

这确实很有用。理想情况下,我们应该将其添加到LLM离线推理API(作为RequestOutput的一部分)和在线API服务器(通过头部)。
我建议查看LLMEngine中的代码路径指标
vllm/vllm/engine/llm_engine.py
f6a5930的第525行
| | seq_group.maybe_set_first_token_time(now) |
理想情况下,这些信息应该存储在RequestOutput中。

svmlkihl

svmlkihl2#

谢谢。我会查看并尝试了解如何添加指标。

相关问题