如果你使用的是标准的ollama3:70b版本,那么它是4位量化的,使用了约33GB的VRAM,这比你的GPU能处理的要多得多。当这种情况发生时,模型的其余部分会被卸载到CPU上,这要慢得多。如果你想要更快的干扰时间,你可以尝试一个较低的量化,比如2位的,它使用了约17GB,更适合24GB的卡:ollama run llama3:70b-instruct-q2_K。只是记住,降低量化大小可能会降低答案的质量(把它想成是压缩图像或视频)。 感谢帮助,我不需要轻量级的模型,因为我需要更高的准确性。
如果你使用的是标准的ollama3:70b版本,那么它是4位量化的,使用了约33GB的显存,这比你的GPU能处理的要多得多。当这种情况发生时,模型的其他部分会被卸载到CPU上,这要慢得多。 如果你想要更快的干扰时间,你可以尝试一个较低的量化,如2位的,它使用了约17GB,更适合24GB的卡:ollama run llama3:70b-instruct-q2_K。 请记住,降低量化大小可能会降低答案的质量(将其视为压缩图像或视频)。
7条答案
按热度按时间iyzzxitl1#
如果你使用的是标准的ollama3:70b版本,那么它是4位量化的,使用了约33GB的VRAM,这比你的GPU能处理的要多得多。当这种情况发生时,模型的其余部分会被卸载到CPU上,这要慢得多。如果你想要更快的干扰时间,你可以尝试一个较低的量化,比如2位的,它使用了约17GB,更适合24GB的卡:
ollama run llama3:70b-instruct-q2_K
。只是记住,降低量化大小可能会降低答案的质量(把它想成是压缩图像或视频)。感谢帮助,我不需要轻量级的模型,因为我需要更高的准确性。
kqlmhetl2#
您的GPU显存不足以完全在GPU上运行一个具有700亿参数的模型。请尝试使用较小的模型,例如具有220亿参数的模型。
iq0todco3#
您的GPU显存不足以完全在GPU上运行一个具有700亿参数的模型。请尝试使用一个较小的模型,例如具有220亿参数的模型。
如果您有任何关于所需配置的想法?
z8dt9xmd4#
用户使用48GB的卡来运行一个70b模型。
n3h0vuf25#
你好,tankvpython,抱歉关于这个问题——我有一个类似的系统,它应该确实会将70B模型的部分加载到GPU上——在加载模型后,是否可以与
ollama ps
一起检查?du7egjpx6#
Hi @tankvpython,抱歉关于这个问题——我有一个类似的系统,它应该能够部分地将70B模型加载到GPU上——在加载模型后,能否请
ollama ps
检查一下?是的,我能够做到这一点,我会检查一下。
dzhpxtsq7#
如果你使用的是标准的ollama3:70b版本,那么它是4位量化的,使用了约33GB的显存,这比你的GPU能处理的要多得多。当这种情况发生时,模型的其他部分会被卸载到CPU上,这要慢得多。
如果你想要更快的干扰时间,你可以尝试一个较低的量化,如2位的,它使用了约17GB,更适合24GB的卡:
ollama run llama3:70b-instruct-q2_K
。请记住,降低量化大小可能会降低答案的质量(将其视为压缩图像或视频)。