text-generation-inference Expose ignore_eos_token to HTTP endpoints

vcirk6k6  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(43)

功能需求

我希望 ignore_eos_token 能够专门构建到 TGI 中,以便在 HTTP 端点(例如作为 parameter 中的可选字段)中可用。

动机

内部评论表明这用于基准测试
text-generation-inference/proto/generate.proto
第91行
| | /// 用于基准测试 |
.
出于同样的原因,我们希望能够对不同的模型/硬件/配置选项进行基准测试和压力测试,以优化延迟/并发性/输入长度/输出长度。
在这种情况下,通过禁用 EOS 令牌并管理总令牌(或新令牌)来固定输出长度是更好的选择。
这在 vLLM 中是可能的,而且(可能)在 OpenAI 的端点中也是可能的,只需调整 logit_bias 以减轻 EOS 令牌的影响(尽管我没有尝试过)。也就是说 - 我认为允许这样的事情并不是反模式。

你的贡献

我很乐意在这里提交 PR,但似乎这个请求被忽略了,并且 closed before 。我想在提交 PR 之前知道我们是否对此持开放态度。

z9zf31ra

z9zf31ra2#

@nathan-az,你是否能解决这个问题?

kmynzznz

kmynzznz3#

我们已经开始使用 benchmark toolignore_eos_token 对于强制输出长序列仍然是一个不错的选择,但基准工具已经很好地完成了它的任务!

相关问题