ollama RTX 3090上的推理速度较慢,

xxb16uws 于 2个月前发布在其他

关注(0)|答案(2)|浏览(69)

问题是什么？
当我运行llama3-8B-q8_0时，我得到的性能大约只有60t/s,而在llama.cpp中是85t/s。当我在RTX 4080 super上运行ollama时，我得到的性能与llama.cpp中的相同。我尝试了在本地和docker中运行，结果都是一样的。
这让我相信有些事情不对劲，还是这是预期的行为？谢谢

操作系统

Linux

GPU

Nvidia

CPU

Intel

Ollama版本

0.1.48

ollama

来源：https://github.com/ollama/ollama/issues/5543

2条答案

按热度按时间

wbrvyc0a1#

你安装了哪个版本的cuda?
你使用了什么标志来编译llama.cpp,它们与我们的设置有何不同？

https://github.com/ollama/ollama/blob/main/llm/generate/gen_common.sh#L43
https://github.com/ollama/ollama/blob/main/llm/generate/gen_linux.sh#L160-L185

一般来说，我们试图在较旧和较新的GPU上提供广泛的硬件支持。我们正在考虑添加两个不同的cuda运行器(adding a v12 runner,除了我们现有的v11运行器),这将使我们能够调整v12运行器以优化较新的GPU,而不会影响到使用v11运行器的较旧GPU的支持。

赞(0）回复(0）举报 2个月前

v2g6jxz62#

我正在使用CUDA 12.5。我进行了默认的cuda llama.cpp编译，没有设置任何额外的标志。
我尝试了v12运行器分支，但性能并没有提高。
经过进一步的测试，似乎这个问题可能与GPU无关。当某些模型运行时，一个CPU线程始终以100%的速度运行(在ollama和llama.cpp中都是如此)。使用3090时，我使用的是Xeon E5 2699 v3,它的单核性能并不出色。使用4080(在那里我没有看到性能下降),我使用的是Ryzen 5 5600x。所以也许在ollama中有更大的CPU开销？
最后我运行了完整的fp16版本，发现性能更接近于llama.cpp - 在ollama中我得到了大约42.5t/s,而在llama.cpp中我得到了大约49.5t/s。

赞(0）回复(0）举报 2个月前

我来回答

ollama RTX 3090上的推理速度较慢,

操作系统

GPU

CPU

Ollama版本

2条答案

相关问题

热门标签

最新问答