bert 如何确定模型的最佳损失值以及何时停止训练？

vmjh9lq9 于 4个月前发布在其他

关注(0)|答案(3)|浏览(75)

我正在使用大约9GB的印地语数据进行预训练语言模型，词汇量约为32k。我的训练参数如下：
学习率 = 1e-4
热身步数 = 40k
最大序列长度 = 128
训练步数 = 500000
我的Tensorboard图表如下。
我正在使用32GB [Nvidia] V100进行训练。我应该再训练多少天，何时停止？

bert

来源：https://github.com/google-research/bert/issues/749

3条答案

按热度按时间

bmvo0sr51#

我不会说有一个特定的损失值，你应该停止训练。
你可以在你的模型没有见过的数据子集上运行 run_pretraining.py ,并将 do_eval 设置为 True 。它应该保存一个包含“下一句预测”和“遮罩词预测”的损失和准确率的文本文件。你可以将自己模型的准确率与已发布的英语BERT模型进行比较，并将其作为“目标”(查阅论文，看起来它的下一句预测准确率为97-98%,不确定遮罩词预测概率)。
然而，我不确定这是否真的是最佳方法。我认为最好的做法是简单地测试你模型在下游任务上的准确性。

赞(0）回复(0）举报 4个月前

shyt4zoc2#

你的批次大小是多少？这花了多长时间？

赞(0）回复(0）举报 4个月前

0x6upsns3#

重复的#95

赞(0）回复(0）举报 4个月前