功能需求
我希望 ignore_eos_token
能够专门构建到 TGI 中,以便在 HTTP 端点(例如作为 parameter
中的可选字段)中可用。
动机
内部评论表明这用于基准测试
text-generation-inference/proto/generate.proto
第91行
| | /// 用于基准测试 |
.
出于同样的原因,我们希望能够对不同的模型/硬件/配置选项进行基准测试和压力测试,以优化延迟/并发性/输入长度/输出长度。
在这种情况下,通过禁用 EOS 令牌并管理总令牌(或新令牌)来固定输出长度是更好的选择。
这在 vLLM 中是可能的,而且(可能)在 OpenAI 的端点中也是可能的,只需调整 logit_bias 以减轻 EOS 令牌的影响(尽管我没有尝试过)。也就是说 - 我认为允许这样的事情并不是反模式。
你的贡献
我很乐意在这里提交 PR,但似乎这个请求被忽略了,并且 closed before 。我想在提交 PR 之前知道我们是否对此持开放态度。
3条答案
按热度按时间ghg1uchk1#
是的,请!
z9zf31ra2#
@nathan-az,你是否能解决这个问题?
kmynzznz3#
我们已经开始使用 benchmark tool 。
ignore_eos_token
对于强制输出长序列仍然是一个不错的选择,但基准工具已经很好地完成了它的任务!