unilm CUDA设备端Assert错误

jhkqcmku 于 7个月前发布在其他

关注(0)|答案(5)|浏览(102)

我正在使用的模型：LayoutLM

在训练过程中，我在进行前向传播时遇到了CUDA设备端Assert错误。以下是错误的截图：

在评估过程中，当我尝试将数据从CPU移动到GPU时，我遇到了CUDA设备Assert错误。以下是错误的截图：

Pytorch版本：1.6.0
CUDA工具包：10.1
操作系统：Ubuntu 16.04
Python:3.6.10 Anaconda
有人能帮我解释一下为什么会出现这个错误吗？

unilm

来源：https://github.com/microsoft/unilm/issues/235

5条答案

按热度按时间

x0fgdtte1#

我正在使用的模型：LayoutLM

在训练过程中，我在执行前向传播时遇到了CUDA设备端Assert错误。以下是错误的截图：

在评估过程中，当我尝试将数据从CPU移动到GPU时，我遇到了CUDA设备Assert错误。以下是错误的截图：

Pytorch版本：1.6.0
CUDA工具包：10.1
操作系统：Ubuntu 16.04
Python:3.6.10 Anaconda
有人能帮我解决这个问题吗？为什么会出现这个错误？
尝试在脚本开始时运行带有CUDA_LAUNCH_BLOCKING=1的命令，它将为我们提供更多关于实际问题的信息。

赞(0）回复(0）举报 7个月前

t1qtbnec2#

@varshaneya,
你能解决上述问题吗？

赞(0）回复(0）举报 7个月前

bwitn5fc3#

你使用的是哪种GPU?

赞(0）回复(0）举报 7个月前

7fhtutme4#

我使用NVIDIA-DGX。

赞(0）回复(0）举报 7个月前

djp7away5#

这个错误信息相当模糊。当我收到它时，我尝试在CPU上运行，然后错误信息变得更清楚。