ollama RTX 3090上的推理速度较慢,

xxb16uws  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(69)

问题是什么?
当我运行llama3-8B-q8_0时,我得到的性能大约只有60t/s,而在llama.cpp中是85t/s。当我在RTX 4080 super上运行ollama时,我得到的性能与llama.cpp中的相同。我尝试了在本地和docker中运行,结果都是一样的。
这让我相信有些事情不对劲,还是这是预期的行为?谢谢

操作系统

Linux

GPU

Nvidia

CPU

Intel

Ollama版本

0.1.48

wbrvyc0a

wbrvyc0a1#

你安装了哪个版本的cuda?
你使用了什么标志来编译llama.cpp,它们与我们的设置有何不同?

  • https://github.com/ollama/ollama/blob/main/llm/generate/gen_common.sh#L43
  • https://github.com/ollama/ollama/blob/main/llm/generate/gen_linux.sh#L160-L185

一般来说,我们试图在较旧和较新的GPU上提供广泛的硬件支持。我们正在考虑添加两个不同的cuda运行器(adding a v12 runner,除了我们现有的v11运行器),这将使我们能够调整v12运行器以优化较新的GPU,而不会影响到使用v11运行器的较旧GPU的支持。

v2g6jxz6

v2g6jxz62#

我正在使用CUDA 12.5。我进行了默认的cuda llama.cpp编译,没有设置任何额外的标志。
我尝试了v12运行器分支,但性能并没有提高。
经过进一步的测试,似乎这个问题可能与GPU无关。当某些模型运行时,一个CPU线程始终以100%的速度运行(在ollama和llama.cpp中都是如此)。使用3090时,我使用的是Xeon E5 2699 v3,它的单核性能并不出色。使用4080(在那里我没有看到性能下降),我使用的是Ryzen 5 5600x。所以也许在ollama中有更大的CPU开销?
最后我运行了完整的fp16版本,发现性能更接近于llama.cpp - 在ollama中我得到了大约42.5t/s,而在llama.cpp中我得到了大约49.5t/s。

相关问题