vllm [用法]:每个请求获取时间统计信息

vpfxa7rd 于 3个月前发布在其他

关注(0)|答案(2)|浏览(25)

我想知道是否有办法在每次请求时获取使用统计数据(可能通过一个标志参数):
我想了解队列等待时间、num_prompt_tokens、num_generated_tokens、预填充阶段所需时间、解码阶段所需时间等，以及如何为每个请求返回这些信息。
如果还没有这样的功能，请告诉我如何添加这个功能。
谢谢。

vllm

来源：https://github.com/vllm-project/vllm/issues/4683

2条答案

按热度按时间

e4eetjau1#

这确实很有用。理想情况下，我们应该将其添加到LLM离线推理API(作为RequestOutput的一部分)和在线API服务器(通过头部)。
我建议查看LLMEngine中的代码路径指标
vllm/vllm/engine/llm_engine.py
f6a5930的第525行
| | seq_group.maybe_set_first_token_time(now) |
理想情况下，这些信息应该存储在RequestOutput中。

赞(0）回复(0）举报 3个月前

svmlkihl2#

谢谢。我会查看并尝试了解如何添加指标。

赞(0）回复(0）举报 3个月前