问题是什么?
我正在一个多GPU环境中工作。我设置了多个docker容器,将每个GPU分配给它,以便我可以并行处理我的工作负载。
以下是我用来设置容器的命令:sudo docker run -d --gpus device=GPU-46b6fece-aec9-853f-0956-2d43359e28e3 -v ollama:/root/.ollama -p 11435:11434 --name ollama0 ollama/ollama
我为每个容器更改了端口,并使用客户端列表来分配工作负载。
我注意到Ollama Docker容器的性能随着时间的推移显著下降。我正在使用llama3:instruct处理一个包含超过134,000个查询的工作负载。一开始,处理速度大约是1到2个项目/秒,在处理几千个查询后,它降到了10到12个项目/秒,并且随着时间的推移变得更糟。
如果我删除并重新配置容器,性能将恢复正常。
操作系统
Linux
GPU
Nvidia
CPU
AMD
Ollama版本
0.1.38
2条答案
按热度按时间pgx2nnw81#
我们正在看到相同的行为(可能无关的差异是我们在服务器上有一台英特尔处理器)。
6bc51xsx2#
我怀疑可能存在Nvidia驱动兼容性问题。我们有两个A6000 48GB,安装了535.161.07驱动程序。
我在Reddit上看到其他用户报告了类似的问题。