我正在使用Mixtral-8x7B-Instruct-v0.1从给定的文本生成JSON,但在某些情况下,生成的输出不符合给定的JSON格式,并且开始生成一个非常大的(5k+ tokens)输出。这导致服务器大幅减速。有没有办法停止特定请求的生成?
jmo0nnb31#
你好@vibhuagrawal14,目前vLLM没有很好的方法来处理这种情况。我认为我们需要支持结构化解码(或语法?)来解决你的问题。目前,你可以使用max_tokens来防止输出过长。
max_tokens
szqfcxe22#
@WoosukKwon 如果我们想要实现这个(停止生成)功能,有什么建议可以开始的地方吗?
2条答案
按热度按时间jmo0nnb31#
你好@vibhuagrawal14,目前vLLM没有很好的方法来处理这种情况。我认为我们需要支持结构化解码(或语法?)来解决你的问题。目前,你可以使用
max_tokens
来防止输出过长。szqfcxe22#
@WoosukKwon 如果我们想要实现这个(停止生成)功能,有什么建议可以开始的地方吗?