ollama 当在Docker中运行带有Nvidia GPU的性能会随着时间的推移而降低,

qqrboqgw  于 2个月前  发布在  Docker
关注(0)|答案(2)|浏览(46)

问题是什么?

我正在一个多GPU环境中工作。我设置了多个docker容器,将每个GPU分配给它,以便我可以并行处理我的工作负载。
以下是我用来设置容器的命令:
sudo docker run -d --gpus device=GPU-46b6fece-aec9-853f-0956-2d43359e28e3 -v ollama:/root/.ollama -p 11435:11434 --name ollama0 ollama/ollama
我为每个容器更改了端口,并使用客户端列表来分配工作负载。
我注意到Ollama Docker容器的性能随着时间的推移显著下降。我正在使用llama3:instruct处理一个包含超过134,000个查询的工作负载。一开始,处理速度大约是1到2个项目/秒,在处理几千个查询后,它降到了10到12个项目/秒,并且随着时间的推移变得更糟。
如果我删除并重新配置容器,性能将恢复正常。

操作系统

Linux

GPU

Nvidia

CPU

AMD

Ollama版本

0.1.38

pgx2nnw8

pgx2nnw81#

我们正在看到相同的行为(可能无关的差异是我们在服务器上有一台英特尔处理器)。

6bc51xsx

6bc51xsx2#

我怀疑可能存在Nvidia驱动兼容性问题。我们有两个A6000 48GB,安装了535.161.07驱动程序。
我在Reddit上看到其他用户报告了类似的问题。

相关问题