DB-GPT 问题:运行时错误:CUDA错误:CUDA兼容设备正忙或不可用

nwo49xxi  于 5个月前  发布在  其他
关注(0)|答案(6)|浏览(83)

遇到过类似的错误。这个错误是因为CUDA设备不可用或者忙于其他任务。你可以尝试以下方法解决这个问题:

  1. 确保你的计算机上安装了正确版本的NVIDIA显卡驱动程序。
  2. 检查是否有其他程序正在使用CUDA设备,如果有,请关闭它们。
  3. 尝试使用CUDA_LAUNCH_BLOCKING=1运行程序,这将使程序在出现CUDA内核错误时阻塞,以便你可以看到更详细的错误信息。你可以在命令行中添加这个参数,例如:
python pilot/server/llmserver.py CUDA_LAUNCH_BLOCKING=1
  1. 如果问题仍然存在,尝试使用具有更多GPU资源的计算机或云服务来运行程序。
xmd2e60i

xmd2e60i2#

你的torch版本是哪个?也许你可以尝试升级torch版本。

but5z9lq

but5z9lq3#

(base) [root@gpu ~]# nvcc --version
nvcc: NVIDIA (R) Cuda编译器驱动程序
版权所有 (c) 2005-2022 NVIDIA公司
创建于Mon_Oct_24_19:12:58_PDT_2022
CUDA编译工具,版本12.0,V12.0.76
构建cuda_12.0.r12.0/compiler.31968024_0

332nm8kg

332nm8kg4#

./deviceQuery
测试结果是pass
(base) [root@gpu demo_suite]# ./bandwidthTest
[CUDA Bandwidth Test] - Starting...
Running on...
Device 0: Tesla T4
Quick Mode
CUDA错误在/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.0/demo_suite/bandwidthTest/bandwidthTest.cu的第756行,代码为801(cudaErrorNotSupported) "cudaEventCreate(&start)"
请问您使用的torch版本是多少?或许您可以尝试升级torch版本。

7z5jn7bk

7z5jn7bk5#

可能CUDA出了问题,但我不知道。

66bbxpm5

66bbxpm56#

你解决了这个问题吗?我也有这个bug。

相关问题