我想知道是否有办法在每次请求时获取使用统计数据(可能通过一个标志参数):我想了解队列等待时间、num_prompt_tokens、num_generated_tokens、预填充阶段所需时间、解码阶段所需时间等,以及如何为每个请求返回这些信息。如果还没有这样的功能,请告诉我如何添加这个功能。谢谢。
e4eetjau1#
这确实很有用。理想情况下,我们应该将其添加到LLM离线推理API(作为RequestOutput的一部分)和在线API服务器(通过头部)。我建议查看LLMEngine中的代码路径指标vllm/vllm/engine/llm_engine.pyf6a5930的第525行| | seq_group.maybe_set_first_token_time(now) |理想情况下,这些信息应该存储在RequestOutput中。
RequestOutput
svmlkihl2#
谢谢。我会查看并尝试了解如何添加指标。
2条答案
按热度按时间e4eetjau1#
这确实很有用。理想情况下,我们应该将其添加到LLM离线推理API(作为
RequestOutput
的一部分)和在线API服务器(通过头部)。我建议查看LLMEngine中的代码路径指标
vllm/vllm/engine/llm_engine.py
f6a5930的第525行
| | seq_group.maybe_set_first_token_time(now) |
理想情况下,这些信息应该存储在RequestOutput中。
svmlkihl2#
谢谢。我会查看并尝试了解如何添加指标。