Ollama GPU没有正确加载,

lb3vh1jj  于 2个月前  发布在  其他
关注(0)|答案(7)|浏览(41)

问题是什么?

我遇到了一个关于Llama服务的问题。我有一块RTX 4090 GPU,拥有80GB的RAM和24GB的VRAM。当我运行Llama 3 70B模型并向它提问时,它最初会加载到GPU上,但在5-10秒后,它完全切换到CPU上。这导致响应速度变慢。请为我提供一个解决这个问题的方法。非常感谢。
注意:- GPU负载为6-12%,CPU负载为70%。

操作系统

Windows

GPU

Nvidia

CPU

Intel

Llama版本

v0.1.43

iyzzxitl

iyzzxitl1#

如果你使用的是标准的ollama3:70b版本,那么它是4位量化的,使用了约33GB的VRAM,这比你的GPU能处理的要多得多。当这种情况发生时,模型的其余部分会被卸载到CPU上,这要慢得多。如果你想要更快的干扰时间,你可以尝试一个较低的量化,比如2位的,它使用了约17GB,更适合24GB的卡:ollama run llama3:70b-instruct-q2_K。只是记住,降低量化大小可能会降低答案的质量(把它想成是压缩图像或视频)。
感谢帮助,我不需要轻量级的模型,因为我需要更高的准确性。

kqlmhetl

kqlmhetl2#

您的GPU显存不足以完全在GPU上运行一个具有700亿参数的模型。请尝试使用较小的模型,例如具有220亿参数的模型。

iq0todco

iq0todco3#

您的GPU显存不足以完全在GPU上运行一个具有700亿参数的模型。请尝试使用一个较小的模型,例如具有220亿参数的模型。
如果您有任何关于所需配置的想法?

z8dt9xmd

z8dt9xmd4#

用户使用48GB的卡来运行一个70b模型。

n3h0vuf2

n3h0vuf25#

你好,tankvpython,抱歉关于这个问题——我有一个类似的系统,它应该确实会将70B模型的部分加载到GPU上——在加载模型后,是否可以与ollama ps一起检查?

du7egjpx

du7egjpx6#

Hi @tankvpython,抱歉关于这个问题——我有一个类似的系统,它应该能够部分地将70B模型加载到GPU上——在加载模型后,能否请ollama ps检查一下?
是的,我能够做到这一点,我会检查一下。

dzhpxtsq

dzhpxtsq7#

如果你使用的是标准的ollama3:70b版本,那么它是4位量化的,使用了约33GB的显存,这比你的GPU能处理的要多得多。当这种情况发生时,模型的其他部分会被卸载到CPU上,这要慢得多。
如果你想要更快的干扰时间,你可以尝试一个较低的量化,如2位的,它使用了约17GB,更适合24GB的卡:ollama run llama3:70b-instruct-q2_K
请记住,降低量化大小可能会降低答案的质量(将其视为压缩图像或视频)。

相关问题