mlc-llm [Bug] 引擎在空闲进程中重启

nzkunb0c  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(38)

我使用pm2运行mlc-llm服务器,运行两天后开始出现这个错误,服务器会自动重启。但是重启后,会有空闲的Python进程占用100%的GPU,导致速度变得非常慢。有没有办法解决这个问题?

g6baxovj

g6baxovj1#

pm2是否杀死了原始引擎?引擎中的取消错误发生在请求被取消时(例如,您发送了一个聊天完成请求,但没有遍历所有内容,因此服务器端决定取消请求),但是原始引擎应该继续正常运行。
如果您能找到重现错误的方法,我们将很高兴深入调查。

wgx48brx

wgx48brx2#

我运行了2个GPU,所以实际上有2个Python程序在运行。引擎重启后,pm2只杀死了一个程序,导致GPU资源被过度占用。我自己无法重现这个错误,因为我从区块链收到了完成请求,但在服务器运行一段时间后,这种情况偶尔会发生。当这个问题发生时,它的样子如下:进程ID 2161是空闲进程,内存使用量巨大且未释放。

xcitsw88

xcitsw883#

我认为当内存使用量非常高时,它将开始出现错误,pm2将重新启动进程,但不会杀死其中一个(为并行Tensor创建的)

相关问题