功能请求
在 generate
响应中添加元数据,如 x-prompt-tokens
、x-generated-tokens
、x-compute-time
、x-total-time
、x-validation-time
、x-queue-time
、x-inference-time
、x-time-per-token
。
动机
我们需要报告像令牌、调用 generate_stream
时的计算时间等指标。如果 generate
响应包含这些数据,将会非常方便。
你的贡献
有空时我会尝试提交一个 PR。
5条答案
按热度按时间oknwwptz1#
这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。
of1yzvn42#
+1
fnatzsnv3#
可能不那么简单,因为当使用流时,响应头会立即返回?
相关代码
text-generation-inference/router/src/server.rs
第663行 a257371
| | if stream { |
w8f9ii694#
从设计Angular 来看,这个可行吗?
eblbsuwk5#
$x_1a_0b_1^x$