ollama 当在Docker中运行带有Nvidia GPU的性能会随着时间的推移而降低,

qqrboqgw 于 2个月前发布在 Docker

关注(0)|答案(2)|浏览(47)

问题是什么？

我正在一个多GPU环境中工作。我设置了多个docker容器，将每个GPU分配给它，以便我可以并行处理我的工作负载。
以下是我用来设置容器的命令：
sudo docker run -d --gpus device=GPU-46b6fece-aec9-853f-0956-2d43359e28e3 -v ollama:/root/.ollama -p 11435:11434 --name ollama0 ollama/ollama
我为每个容器更改了端口，并使用客户端列表来分配工作负载。
我注意到Ollama Docker容器的性能随着时间的推移显著下降。我正在使用llama3:instruct处理一个包含超过134,000个查询的工作负载。一开始，处理速度大约是1到2个项目/秒，在处理几千个查询后，它降到了10到12个项目/秒，并且随着时间的推移变得更糟。
如果我删除并重新配置容器，性能将恢复正常。