我正在使用的模型:LayoutLM
在训练过程中,我在进行前向传播时遇到了CUDA设备端Assert错误。以下是错误的截图:
在评估过程中,当我尝试将数据从CPU移动到GPU时,我遇到了CUDA设备Assert错误。以下是错误的截图:
Pytorch版本:1.6.0CUDA工具包:10.1操作系统:Ubuntu 16.04Python:3.6.10 Anaconda有人能帮我解释一下为什么会出现这个错误吗?
x0fgdtte1#
在训练过程中,我在执行前向传播时遇到了CUDA设备端Assert错误。以下是错误的截图:
Pytorch版本:1.6.0CUDA工具包:10.1操作系统:Ubuntu 16.04Python:3.6.10 Anaconda有人能帮我解决这个问题吗?为什么会出现这个错误?尝试在脚本开始时运行带有CUDA_LAUNCH_BLOCKING=1的命令,它将为我们提供更多关于实际问题的信息。
t1qtbnec2#
@varshaneya,你能解决上述问题吗?
bwitn5fc3#
你使用的是哪种GPU?
7fhtutme4#
我使用NVIDIA-DGX。
djp7away5#
这个错误信息相当模糊。当我收到它时,我尝试在CPU上运行,然后错误信息变得更清楚。
5条答案
按热度按时间x0fgdtte1#
我正在使用的模型:LayoutLM
在训练过程中,我在执行前向传播时遇到了CUDA设备端Assert错误。以下是错误的截图:
在评估过程中,当我尝试将数据从CPU移动到GPU时,我遇到了CUDA设备Assert错误。以下是错误的截图:
Pytorch版本:1.6.0
CUDA工具包:10.1
操作系统:Ubuntu 16.04
Python:3.6.10 Anaconda
有人能帮我解决这个问题吗?为什么会出现这个错误?
尝试在脚本开始时运行带有CUDA_LAUNCH_BLOCKING=1的命令,它将为我们提供更多关于实际问题的信息。
t1qtbnec2#
@varshaneya,
你能解决上述问题吗?
bwitn5fc3#
你使用的是哪种GPU?
7fhtutme4#
我使用NVIDIA-DGX。
djp7away5#
这个错误信息相当模糊。当我收到它时,我尝试在CPU上运行,然后错误信息变得更清楚。