ollama Slow inference on dual A40

8ftvxx2r  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(30)

问题是什么?

A40卡上的llama3server.log性能缓慢。

操作系统

  • 无响应*

GPU

  • 无响应*

CPU

  • 无响应*

Ollama版本

  • 无响应*
vsmadaxz

vsmadaxz1#

根据服务器日志,这看起来像是从源代码本地构建的CUDA v12版本,而不是官方构建。
我们能获取更多关于如何构建的信息吗?

相关问题