vllm [Usage]: slow inference for fine-tuned model

ssm49v7z  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(58)

当前环境

我正在使用Huggingface的SFT对Mistral-7B模型进行微调。在微调后,通过langchain - vllm(vllm版本:0.4.0)加载模型,模型运行良好。
然而,推理延迟大约是原始"mistralai/Mistral-7B-Instruct-v0.2"的2-3倍慢。我想问一下,我在应用vllm到SFT模型时是否遗漏了任何特定的设置?
谢谢。

如何使用vllm

在微调后的模型上运行vllm。

xtupzzrd

xtupzzrd1#

这个问题在原始的vllm推理API中也存在,不仅仅是针对langchain API。

相关问题