Paddle 同一时刻,只能运行一个飞桨模型吗?如果运行多个飞桨模型,会触发底层cuda报错?

amrnrhlw  于 2022-10-20  发布在  其他
关注(0)|答案(4)|浏览(359)

请提出你的问题 Please ask your question

1.今天看了一篇文章,里面写的内容,大概是说,同一时刻,只能运行一个飞桨模型,同时运行多个飞桨模型,会触发底层cuda报错,我不知道这个说法是否正确,想来问问各位大佬.
我指的是,windows系统,准确说,python3.9.13,64位windows11系统,cuda10.2或cuda11.2.使用Paddle Inference飞桨原生推理库,C++语言推理,使用NVIDIA的GPU或AMD的CPU推理.
2.windows以前不支持单机多卡训练,好像根本原因是windows不支持NCCL,请问现在windows支持单机多卡训练吗?支持分布式训练吗?如果不支持的话,有计划推进吗?毕竟windows的使用人数比Linux多几十倍.我用了20年windows,从来没用过Linux和Macos.据我了解,pytorch和libtorch是支持windows单机多卡和分布式训练和推理的.
3.以前NVIDIA推出3090,过了将近一年,飞桨才支持,我想请问,飞桨现在是否支持4090的训练和推理呢?

holgip5t

holgip5t1#

您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看 官网API文档常见问题历史IssueAI社区 来寻求解答。祝您生活愉快~

Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the APIFAQGithub Issue and AI community to get the answer.Have a nice day!

p8h8hvxi

p8h8hvxi2#

  1. 问题一:对于Windows的卡,同一张GPU卡上同时跑多个CUDA进程,可能会发生显存不足、cuda线程忙碌 导致失败的一些问题,可能不稳定。在Linux上,nvidia针对GPU卡专门提供了一种nvidia-mps的技术,就是为解决这个问题,具体可以去研究下nvidia-mps技术;CPU没有这个问题。
  2. 问题三:目前还没有支持,内部尚无这种型号显卡
uinbv5nw

uinbv5nw3#

@zhouwei25 你的意思是,windows上运行飞桨推理模型,无论是NVIDIA显卡,还是AMD CPU,最好都是同时只运行一个模型,不要同时在一张NVIDIA显卡上运行多个飞桨推理模型?不要在同个CPU上运行多个飞桨推理模型?是这意思吗?
请问大佬,据我所知,多数人使用windows,而不是Linux,请问飞桨打算完善一下,让windows可以同时运行多个推理模型吗?
我了解到,pytorch和libtorch在某种程度上,某些领域,已经支持4090显卡了,至少有不少模型在4090显卡上推理没问题.性能比3090提高1倍多.希望飞桨早日支持.

bcs8qyzn

bcs8qyzn4#

@zhouwei25 你的意思是,windows上运行飞桨推理模型,无论是NVIDIA显卡,还是AMD CPU,最好都是同时只运行一个模型,不要同时在一张NVIDIA显卡上运行多个飞桨推理模型?不要在同个CPU上运行多个飞桨推理模型?是这意思吗? 请问大佬,据我所知,多数人使用windows,而不是Linux,请问飞桨打算完善一下,让windows可以同时运行多个推理模型吗? 我了解到,pytorch和libtorch在某种程度上,某些领域,已经支持4090显卡了,至少有不少模型在4090显卡上推理没问题.性能比3090提高1倍多.希望飞桨早日支持.

问题一说的这个nvidia-mps功能,是nvidia提供的。GPU只是说显存不够用时可能不稳定,跑还是能跑的,而NV做的nvidia-mps使之更稳定。CPU不存在这个问题,当前市面CPU多进程调度都没问题。
另外这个,是操作系统硬件层面的问题,飞桨你可以理解为只是计算机的一个python进程。

相关问题