vllm Proposal: Adding more Prometheus metrics

mi7gmzs6 于 2个月前发布在其他

关注(0)|答案(3)|浏览(79)

一旦 #2316 被合并，我愿意贡献以下指标，我相信这些指标对于监控 vllm 的使用情况是有帮助的。

#	指标	类型	标签	描述
1.	vllm:request_success	计数器	finish_reason= `stop\|length`	已成功处理的请求数量。
2.	vllm:request_params_max_tokens	直方图		max_tokens 请求参数的值。
3.	vllm:request_params_n	直方图		n 请求参数的值。
4.	vllm:request_total_tokens	直方图		请求的总序列长度(输入令牌 + 生成令牌)。
5.	vllm:request_prompt_tokens	直方图		已处理的预填充令牌数量。
6.	vllm:request_generation_tokens	直方图		已处理的生成令牌数量。

注意事项：

指标 5 和 6 已经存在，但作为计数器(vllm:prompt_tokens_total 和 vllm:generation_tokens_total)。我认为直方图更有意义。为了向后兼容，我们可以保留这两种类型(计数器和直方图)。
请告诉我您的想法。

来源：https://github.com/vllm-project/vllm/issues/2650

3条答案

按热度按时间

其他事情就是aborted_requests的数量

当前对端到端延迟的分析的一个很大的限制是，没有对处理的令牌数量进行标准化。我们可能无法完全做到这一点，但是通过将端到端延迟除以生成的令牌数量来标准化可能会给出一个更好的标准化指标，因此也许在这方面有所扩展会是很好的

赞(0）回复(0）举报 2个月前

感谢您的建议！aborted_requests 度量听起来是一个重要的补充。然而，我不太清楚它如何根据处理的令牌数量来对端到端延迟进行归一化。您能提供更多细节吗？

赞(0）回复(0）举报 2个月前

哦，抱歉，这些是完全独立的，应该分成两个要点。

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前