mixtral:8x7b-instruct-v0.1-fp16在Ollama上的表现比在相同配置下使用vllm服务的相同模型要差,

ylamdve6 于 5个月前发布在其他

关注(0)|答案(5)|浏览(63)

你好，我比较了使用ollama和vllm平台在未量化的mixtral:8x7b-instruct-v0.1-fp16上进行推理的速度。我将延迟设置为0,并设置了相同数量的生成令牌，但在ollama上运行的混合模型性能非常差。我还检查了在ollama上的提示中是否添加了[INST]和[/INST],与vllm相同。但模型仍然表现不佳。值得注意的是，ollama仅使用2个A6000 GPU(每个具有48G内存),而vllm和Hugging Face需要4个GPU来处理未量化的混合8x7b模型。这让我想知道ollama是否应用了任何形式的实时量化？

ollama

来源：https://github.com/ollama/ollama/issues/3349

5条答案

按热度按时间

vhmi4jdf1#

你好，@yilei-ding。你正在使用哪个操作系统运行Ollama?你的RAM内存有多少？你能分享一个提示或脚本来运行多个提示吗？这样我们就可以复制这个问题了。

赞(0）回复(0）举报 6个月前

nsc4cvqm2#

你好，@yilei-ding,你尝试过0.1.31版本吗？你能分享一下你的RAM、CPU、操作系统和脚本吗？为了尝试重现这个问题。如果没有更多的消息并且没有其他用户报告相同的问题，那么这个问题可能会被关闭。

赞(0）回复(0）举报 6个月前

h79rfbju3#

你能分享一下你的vllm配置和命令行吗？

赞(0）回复(0）举报 6个月前

mwngjboj4#

@yilei-ding,mixtral:8x7b-instruct-v0.1-fp16模板略有出入(模板开头多了一个空格),这可能导致结果不佳。我刚刚更新了模板，所以你可能想再试试。
Ollama不会实时进行量化，但大约一个月前，转换脚本发生了变化，改变了moes的转换方式(具体来说，它以不同的方式将Maven们组合在一起，包括up/down/gate注意力层)。我会尝试一下，看看是否有性能差异。

赞(0）回复(0）举报 6个月前

wkyowqbh5#

好的，我已经重新转换了fp16版本，两者的性能相当。
在新版本上，我得到：

total duration:       1m28.047026667s
load duration:        2.070959ms
prompt eval count:    13 token(s)
prompt eval duration: 3.371297s
prompt eval rate:     3.86 tokens/s
eval count:           1132 token(s)
eval duration:        1m24.670792s
eval rate:            13.37 tokens/s

在mixtral:8x7b-instruct-v0.1-fp16上，我得到：

total duration:       1m20.200884042s
load duration:        4.080167ms
prompt eval count:    13 token(s)
prompt eval duration: 3.398857s
prompt eval rate:     3.82 tokens/s
eval count:           1031 token(s)
eval duration:        1m16.795729s
eval rate:            13.43 tokens/s

所以实际上两者之间的转换没有区别。我认为可能发生的事情是某些任务被卸载到CPU上？当你加载模型时，能否更新你的ollama版本并尝试新的ollama ps命令？如果正确地加载到GPU上，它应该显示为100% GPU。

赞(0）回复(0）举报 6个月前

我来回答

mixtral:8x7b-instruct-v0.1-fp16在Ollama上的表现比在相同配置下使用vllm服务的相同模型要差,

5条答案

相关问题

热门标签

最新问答