我正在使用Huggingface的SFT对Mistral-7B模型进行微调。在微调后,通过langchain - vllm(vllm版本:0.4.0)加载模型,模型运行良好。然而,推理延迟大约是原始"mistralai/Mistral-7B-Instruct-v0.2"的2-3倍慢。我想问一下,我在应用vllm到SFT模型时是否遗漏了任何特定的设置?谢谢。
在微调后的模型上运行vllm。
xtupzzrd1#
这个问题在原始的vllm推理API中也存在,不仅仅是针对langchain API。
1条答案
按热度按时间xtupzzrd1#
这个问题在原始的vllm推理API中也存在,不仅仅是针对langchain API。