unilm 在训练过程中出现LayoutLM NaN损失,

yxyvkwin  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(30)


我遇到了这个问题,模型在训练过程中输出的损失值为nan。这种情况通常发生在第3个epoch之后。
我正在使用一个包含29个类别和40000个数据点的自定义数据集进行训练。遵循的步骤与这个链接相同,只是进行了一些微调:https://github.com/NielsRogge/Transformers-Tutorials/blob/master/LayoutLMv2/RVL-CDIP/Fine_tuning_LayoutLMv2ForSequenceClassification_on_RVL_CDIP.ipynb
训练是在AWS SageMaker笔记本示例上进行的。还使用了加速API(更精确地说是notebook_launcher()函数)来利用多个GPU进行训练。此外,所有测试用例预测的logits输出也是nan。
对于这个问题的任何帮助都非常感谢。
谢谢

nmpmafwu

nmpmafwu1#

@sathwikacharya 你解决了这个问题吗?我正在面临同样的问题,尤其是从microsoft/layoutlmv3-base切换到microsoft/layoutlmv3-large。

相关问题