vllm GPU利用率在长期运行过程中降低

xt0899hw  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(54)

在使用vLLM进行离线批量预测时,我发现在长时间运行过程中GPU利用率显著降低。如图所示,00:00时的利用率约为60-70%,但到15:00时降至50-60%。这是什么原因?有解决办法吗?

目前,我怀疑是GPU内存碎片过多,我正尝试通过定期重启系统来缓解这个问题。

vcudknz3

vcudknz31#

你好。
我正在联系,因为我遇到了类似的情况。
我在多GPU(8个单元)环境中进行长期推理。
在某个时刻,GPU利用率下降,导致推理延迟,其中2个单元达到100%,其余为0%。
如果你有类似的问题,你能告诉我你是如何解决的吗?

vyu0f0g1

vyu0f0g12#

有人明白为什么发生这种情况吗?cc @WrRan 是否已经以某种方式解决了你的问题?

rslzwgfq

rslzwgfq3#

通过定期重启系统,我解决了这个问题。

相关问题