vllm 当在聊天补全中使用Beam Search时出现IndexError,

rbpvctlc 于 6个月前发布在其他

关注(0)|答案(6)|浏览(61)

我知道这可能不被支持，因为增加了复杂性，但我只是想澄清一下，因为我很惊讶地看到我可以将这些参数传递给服务器。现在我不确定地在这里遇到了一个IndexError
这是一个简单的客户端/服务器示例。我正在使用v0.2.7

python -m vllm.entrypoints.openai.api_server --model mistralai/Mistral-7B-Instruct-v0.1

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)
chat_completion = client.chat.completions.create(
    messages=[{"role": "user", "content": "Hello, world!"}],
    model="mistralai/Mistral-7B-Instruct-v0.1",
    max_tokens=128,
    temperature=0,
    stream=True,
    extra_body={
      "use_beam_search": True,
      "best_of": 3
    }
)
for chunk in chat_completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

来源：https://github.com/vllm-project/vllm/issues/2653

6条答案

按热度按时间

啊，我刚刚修复了这个问题，但还没有修复聊天功能。这是一个bug。感谢您提出这个问题！

赞(0）回复(0）举报 6个月前

如果这个问题没有解决，我会为此做出贡献。请让我知道。

赞(0）回复(0）举报 6个月前

你好，@simon-mo ,#2529 是提到的 PR 吗？

赞(0）回复(0）举报 6个月前

是的！请随时提交修复！

赞(0）回复(0）举报 6个月前

完成API接受一批提示，而聊天完成API不接受，这让我对相应的建议解决方案感到有些困惑。如果使用beam search,完成API的流参数最终会变为False,与请求中的流参数无关。预期的解决方案是否也是类似的？

赞(0）回复(0）举报 6个月前

是的，我认为原因是在执行beam search时，我们不能逐个流式处理token。因此，禁用是最简单的解决方法。这可能是一个遗留约束，因为当使用beam search时，generate调用仍然可以输出增量token结果。

赞(0）回复(0）举报 6个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前