你好,我比较了使用ollama和vllm平台在未量化的mixtral:8x7b-instruct-v0.1-fp16
上进行推理的速度。我将延迟设置为0,并设置了相同数量的生成令牌,但在ollama上运行的混合模型性能非常差。我还检查了在ollama上的提示中是否添加了[INST]和[/INST],与vllm相同。但模型仍然表现不佳。值得注意的是,ollama仅使用2个A6000 GPU(每个具有48G内存),而vllm和Hugging Face需要4个GPU来处理未量化的混合8x7b模型。这让我想知道ollama是否应用了任何形式的实时量化?
5条答案
按热度按时间vhmi4jdf1#
你好,@yilei-ding。你正在使用哪个操作系统运行Ollama?你的RAM内存有多少?你能分享一个提示或脚本来运行多个提示吗?这样我们就可以复制这个问题了。
nsc4cvqm2#
你好,@yilei-ding,你尝试过0.1.31版本吗?你能分享一下你的RAM、CPU、操作系统和脚本吗?为了尝试重现这个问题。如果没有更多的消息并且没有其他用户报告相同的问题,那么这个问题可能会被关闭。
h79rfbju3#
你能分享一下你的vllm配置和命令行吗?
mwngjboj4#
@yilei-ding,
mixtral:8x7b-instruct-v0.1-fp16
模板略有出入(模板开头多了一个空格),这可能导致结果不佳。我刚刚更新了模板,所以你可能想再试试。Ollama不会实时进行量化,但大约一个月前,转换脚本发生了变化,改变了moes的转换方式(具体来说,它以不同的方式将Maven们组合在一起,包括up/down/gate注意力层)。我会尝试一下,看看是否有性能差异。
wkyowqbh5#
好的,我已经重新转换了fp16版本,两者的性能相当。
在新版本上,我得到:
在
mixtral:8x7b-instruct-v0.1-fp16
上,我得到:所以实际上两者之间的转换没有区别。我认为可能发生的事情是某些任务被卸载到CPU上?当你加载模型时,能否更新你的ollama版本并尝试新的
ollama ps
命令?如果正确地加载到GPU上,它应该显示为100% GPU
。