是否存在相同错误的现有问题?
- 我已检查了现有问题。
分支名称
0.6.0
提交ID
其他环境信息
2080 Ti
WSL2 on Windows 11
Docker
实际行为
调用Ollama LLM服务,每次聊天时GPU内存都会加载和卸载
预期行为
Ollama支持在调用参数中设置keep_alive,任何负数都可以设置
使用keep_alive参数与/api/generate和/api/chat API端点一起使用,以控制模型在内存中停留的时间。'0'将在生成响应后立即卸载模型
重现步骤
Config Ollama serve LLM
use ragflow to chat
其他信息
- 无响应*
1条答案
按热度按时间eqfvzcg81#
我已经使用以下方法解决了这个问题
在终端中运行以下命令:
OLLAMA_HOST=0.0.0.0:11435 ollama pull mistral:latest
在另一个终端示例中运行以下命令:
OLLAMA_HOST=0.0.0.0:11435 ollama serve
如果出现错误,先运行第二个命令,然后再运行第一个命令。
之后,你需要在WSL中的Linux上获取inet地址。在终端中输入'ipconfig'并获取inet地址。将此地址输入到Ollama模型附加面板中。你可以从下面的截图中理解。