text-generation-inference add metadata like prompt tokens to generate_stream response

fjaof16o  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(85)

功能请求

generate 响应中添加元数据,如 x-prompt-tokensx-generated-tokensx-compute-timex-total-timex-validation-timex-queue-timex-inference-timex-time-per-token

动机

我们需要报告像令牌、调用 generate_stream 时的计算时间等指标。如果 generate 响应包含这些数据,将会非常方便。

你的贡献

有空时我会尝试提交一个 PR。

oknwwptz

oknwwptz1#

这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。

fnatzsnv

fnatzsnv3#

可能不那么简单,因为当使用流时,响应头会立即返回?

import requests

session = requests.Session()

url = "http://0.0.0.0:80/generate_stream"
data = {"inputs": "Today I am in Paris and", "parameters": {"max_new_tokens": 20}}
headers = {"Content-Type": "application/json"}

response = requests.post(url, json=data, headers=headers)

response = session.post(
    url,
    json=data,
    headers=headers,
    stream=True,
)

for line in response.iter_lines():
    print(f"line: `{line}`")

print(response.headers)

相关代码
text-generation-inference/router/src/server.rs
第663行 a257371
| | if stream { |

w8f9ii69

w8f9ii694#

从设计Angular 来看,这个可行吗?

相关问题