在使用vLLM进行离线批量预测时,我发现在长时间运行过程中GPU利用率显著降低。如图所示,00:00时的利用率约为60-70%,但到15:00时降至50-60%。这是什么原因?有解决办法吗?
目前,我怀疑是GPU内存碎片过多,我正尝试通过定期重启系统来缓解这个问题。
vcudknz31#
你好。我正在联系,因为我遇到了类似的情况。我在多GPU(8个单元)环境中进行长期推理。在某个时刻,GPU利用率下降,导致推理延迟,其中2个单元达到100%,其余为0%。如果你有类似的问题,你能告诉我你是如何解决的吗?
vyu0f0g12#
有人明白为什么发生这种情况吗?cc @WrRan 是否已经以某种方式解决了你的问题?
rslzwgfq3#
通过定期重启系统,我解决了这个问题。
3条答案
按热度按时间vcudknz31#
你好。
我正在联系,因为我遇到了类似的情况。
我在多GPU(8个单元)环境中进行长期推理。
在某个时刻,GPU利用率下降,导致推理延迟,其中2个单元达到100%,其余为0%。
如果你有类似的问题,你能告诉我你是如何解决的吗?
vyu0f0g12#
有人明白为什么发生这种情况吗?cc @WrRan 是否已经以某种方式解决了你的问题?
rslzwgfq3#
通过定期重启系统,我解决了这个问题。