ollama Olama运行模型的速度是否与CUDA版本有关?

z2acfund  于 22天前  发布在  其他
关注(0)|答案(1)|浏览(19)

问题是什么?
我使用最新版本的Ollama部署了qwen2:72B,但发现在不同的nvidia驱动版本下,Ollama模型的加载速度差异很大。

驱动版本:535.183.06 | cuda版本:12.2
Ollama版本:0.3.4
模型加载时间:29秒

驱动版本:515.105.01 | cuda版本:11.7
Ollama版本:0.3.6
模型加载时间:659秒

GPU:A800
操作系统:Linux
GPU制造商:Nvidia
CPU:无响应
Ollama版本:无响应

zbdgwd5y

zbdgwd5y1#

如果模型已经在缓冲区缓存中,重新加载将更快。尝试这个:

time curl localhost:11434/api/generate -d '{"model":"qwen2:72b","prompt":"hi","options":{"seed":0},"stream":false,"keep_alive":0}'
sleep 5
time curl localhost:11434/api/generate -d '{"model":"qwen2:72b","prompt":"hi","options":{"seed":0},"stream":false,"keep_alive":0}'

第二个命令将从缓冲区缓存中加载模型,并为您提供一个更好的估计,即cuda驱动程序将模型加载到GPU所需的时间。

相关问题