vllm 停止无限期运行的请求

5n0oy7gb  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(65)

我正在使用Mixtral-8x7B-Instruct-v0.1从给定的文本生成JSON,但在某些情况下,生成的输出不符合给定的JSON格式,并且开始生成一个非常大的(5k+ tokens)输出。这导致服务器大幅减速。
有没有办法停止特定请求的生成?

jmo0nnb3

jmo0nnb31#

你好@vibhuagrawal14,目前vLLM没有很好的方法来处理这种情况。我认为我们需要支持结构化解码(或语法?)来解决你的问题。目前,你可以使用max_tokens来防止输出过长。

szqfcxe2

szqfcxe22#

@WoosukKwon 如果我们想要实现这个(停止生成)功能,有什么建议可以开始的地方吗?

相关问题