keras Tensorflow训练在所有时期完成前停止，无错误消息

yvfmudvl 于 2022-11-13 发布在其他

关注(0)|答案(1)|浏览(130)

我试图在我生成的一些开放Angular 数据上训练一个多头注意力模型，以解决一个分类问题。该模型旨在测试我的数据应该使用什么样的标准化，可以在here中找到。也可以在here中找到一个带有相关代码的colab笔记本。
我试图训练模型超过90个历元，但每次在15到25个历元之间的某个地方后，模型崩溃，没有错误信息。
下面是输出的一个片段

Epoch 14/90
491/491 [==============================] - 60s 122ms/step - loss: 0.9339 - sparse_categorical_accuracy: 0.5995 - val_loss: 0.9894 - val_sparse_categorical_accuracy: 0.5867
Epoch 15/90
491/491 [==============================] - 60s 122ms/step - loss: 0.9312 - sparse_categorical_accuracy: 0.5992 - val_loss: 0.9819 - val_sparse_categorical_accuracy: 0.5898
116/116 [==============================] - 6s 54ms/step - loss: 0.9647 - sparse_categorical_accuracy: 0.5941

我尝试过通过colab在Google Compute Engine GPU上运行代码，以及在我的本地系统上在wsl2环境下运行代码，每次尝试都得到相同的结果。即使我不对数据进行规范化，也会出现同样的问题。
技术规格：Windows 11家庭版AMD ryzen 7 5800H Nvidia RTX 3050移动的版16GB RAM VSCode基于WSL2 Google Colab，带有Python 3谷歌计算引擎后端（GPU）

keras

来源：https://stackoverflow.com/questions/73681177/tensorflow-training-stops-before-all-epochs-are-completed-with-no-error-message