我发现vllm只能使用generate方法,例如llm.generate(prompts, sampling_params)。现在我想使用qwen-chat-7b的chat方法,就像llm.chat(prompts, sampling_params)一样。
vc6uscn91#
最简单的方法是启动一个提供与OpenAI兼容API的VLM服务器。参考链接:https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html#openai-compatible-server
qojgxg4l2#
尝试使用 llm.generate(prompt_token_ids, sampling_params) 代替。将令牌传递给 generate 函数,而不是文本。
llm.generate(prompt_token_ids, sampling_params)
generate
a11xaf1n3#
嗯,但那不会创建一个聊天。有没有办法我们可以用这个来创建一个类似提示的聊天,而不需要创建一个服务器?
yruzcnhs4#
你有没有解决这个问题?我现在正在使用的是huggingface分词器中的apply_chat_template,然后将其传递过去。可能不是理想的解决方案!
apply_chat_template
ffvjumwh5#
我认为我做了,但我现在想不起来了。我能做的是与你分享我的项目,这是一个聊天CLI,它作为输入/输出监视I/O文件。你想在我的的项目中看看吗?
5条答案
按热度按时间vc6uscn91#
最简单的方法是启动一个提供与OpenAI兼容API的VLM服务器。
参考链接:https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html#openai-compatible-server
qojgxg4l2#
尝试使用
llm.generate(prompt_token_ids, sampling_params)
代替。将令牌传递给generate
函数,而不是文本。a11xaf1n3#
嗯,但那不会创建一个聊天。
有没有办法我们可以用这个来创建一个类似提示的聊天,而不需要创建一个服务器?
yruzcnhs4#
你有没有解决这个问题?我现在正在使用的是huggingface分词器中的
apply_chat_template
,然后将其传递过去。可能不是理想的解决方案!ffvjumwh5#
我认为我做了,但我现在想不起来了。
我能做的是与你分享我的项目,这是一个聊天CLI,它作为输入/输出监视I/O文件。
你想在我的的项目中看看吗?