text-generation-inference add metadata like prompt tokens to generate_stream response

fjaof16o 于 6个月前发布在其他

关注(0)|答案(5)|浏览(125)

功能请求

在 generate 响应中添加元数据，如 x-prompt-tokens、x-generated-tokens、x-compute-time、x-total-time、x-validation-time、x-queue-time、x-inference-time、x-time-per-token。

动机

我们需要报告像令牌、调用 generate_stream 时的计算时间等指标。如果 generate 响应包含这些数据，将会非常方便。

你的贡献

有空时我会尝试提交一个 PR。

text-generation-inference

来源：https://github.com/huggingface/text-generation-inference/issues/1530

5条答案

按热度按时间

oknwwptz1#

这个问题已经过期，因为它已经打开了30天，没有活动。请移除过期标签或评论，否则将在5天内关闭。

赞(0）回复(0）举报 6个月前

of1yzvn42#

赞(0）回复(0）举报 6个月前

fnatzsnv3#

可能不那么简单，因为当使用流时，响应头会立即返回？

import requests

session = requests.Session()

url = "http://0.0.0.0:80/generate_stream"
data = {"inputs": "Today I am in Paris and", "parameters": {"max_new_tokens": 20}}
headers = {"Content-Type": "application/json"}

response = requests.post(url, json=data, headers=headers)

response = session.post(
    url,
    json=data,
    headers=headers,
    stream=True,
)

for line in response.iter_lines():
    print(f"line: `{line}`")

print(response.headers)

相关代码
text-generation-inference/router/src/server.rs
第663行 a257371
| | if stream { |

赞(0）回复(0）举报 6个月前

w8f9ii694#

从设计Angular 来看，这个可行吗？

赞(0）回复(0）举报 6个月前

eblbsuwk5#

$x_1a_0b_1^x$

赞(0）回复(0）举报 6个月前