ollama 如何使模型调用更快

gopyfrb3  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(38)

问题是什么?

我使用docker加载多个ollama镜像,并通过nginx分发它们,这比直接调用部署的模型要慢得多。

操作系统

Linux

GPU

Nvidia

CPU

  • 无响应*

Ollama版本

0.1.34

cbwuti44

cbwuti441#

在我添加了"keep_alive": "24h"参数之后,过了一段时间我执行了nvidia-smi命令,卡片上没有显示ollma,所以我需要调用接口来显示它。

相关问题