Ollama GPU没有正确加载,

lb3vh1jj 于 2个月前发布在其他

关注(0)|答案(7)|浏览(41)

问题是什么？

我遇到了一个关于Llama服务的问题。我有一块RTX 4090 GPU,拥有80GB的RAM和24GB的VRAM。当我运行Llama 3 70B模型并向它提问时，它最初会加载到GPU上，但在5-10秒后，它完全切换到CPU上。这导致响应速度变慢。请为我提供一个解决这个问题的方法。非常感谢。
注意：- GPU负载为6-12%,CPU负载为70%。

操作系统

Windows

GPU

Nvidia

CPU

Intel

Llama版本

v0.1.43

ollama

来源：https://github.com/ollama/ollama/issues/4995

7条答案

按热度按时间

iyzzxitl1#

如果你使用的是标准的ollama3:70b版本，那么它是4位量化的，使用了约33GB的VRAM,这比你的GPU能处理的要多得多。当这种情况发生时，模型的其余部分会被卸载到CPU上，这要慢得多。如果你想要更快的干扰时间，你可以尝试一个较低的量化，比如2位的，它使用了约17GB,更适合24GB的卡：ollama run llama3:70b-instruct-q2_K。只是记住，降低量化大小可能会降低答案的质量(把它想成是压缩图像或视频)。
感谢帮助，我不需要轻量级的模型，因为我需要更高的准确性。

赞(0）回复(0）举报 2个月前

kqlmhetl2#

您的GPU显存不足以完全在GPU上运行一个具有700亿参数的模型。请尝试使用较小的模型，例如具有220亿参数的模型。

赞(0）回复(0）举报 2个月前

iq0todco3#

您的GPU显存不足以完全在GPU上运行一个具有700亿参数的模型。请尝试使用一个较小的模型，例如具有220亿参数的模型。
如果您有任何关于所需配置的想法？

赞(0）回复(0）举报 2个月前

z8dt9xmd4#

用户使用48GB的卡来运行一个70b模型。

赞(0）回复(0）举报 2个月前

n3h0vuf25#

你好，tankvpython,抱歉关于这个问题——我有一个类似的系统，它应该确实会将70B模型的部分加载到GPU上——在加载模型后，是否可以与ollama ps一起检查？

赞(0）回复(0）举报 2个月前

du7egjpx6#

Hi @tankvpython,抱歉关于这个问题——我有一个类似的系统，它应该能够部分地将70B模型加载到GPU上——在加载模型后，能否请ollama ps检查一下？
是的，我能够做到这一点，我会检查一下。

赞(0）回复(0）举报 2个月前

dzhpxtsq7#

如果你使用的是标准的ollama3:70b版本，那么它是4位量化的，使用了约33GB的显存，这比你的GPU能处理的要多得多。当这种情况发生时，模型的其他部分会被卸载到CPU上，这要慢得多。
如果你想要更快的干扰时间，你可以尝试一个较低的量化，如2位的，它使用了约17GB,更适合24GB的卡：ollama run llama3:70b-instruct-q2_K。
请记住，降低量化大小可能会降低答案的质量(将其视为压缩图像或视频)。

赞(0）回复(0）举报 2个月前

我来回答

Ollama GPU没有正确加载,

问题是什么？

操作系统

GPU

CPU

Llama版本

7条答案

相关问题

热门标签

最新问答