bert 适合语言模型微调的适当训练步骤

wz1wpwve 于 9个月前发布在其他

关注(0)|答案(1)|浏览(128)

我想根据我的自定义数据集微调BERT-base-uncased作为语言模型。它包括大约8000万条推文。我对于应该设置多少训练步骤以便进行最佳训练(不会出现欠拟合/过拟合)有些困惑。README中提到，实际上应该超过/大约10000步，但是对于我这样的大数据集呢？有人有估算吗？

bert

来源：https://github.com/google-research/bert/issues/1182

1条答案

按热度按时间

w80xi6nr1#

你好，Sajiatsu。

我认为这将根据以下几点进行调整。如果你通过冻结语言模型层进行微调，那么我认为它不需要太多的迭代次数。如果你通过重新训练所有层进行微调，那么需要更多的迭代次数。此外，如果你首先使用自己的自定义数据集训练一个语言模型(通过使用检查点重新训练),那么需要更多的迭代次数。我认为最好的方法是通过实验找到最佳的迭代次数，另外，你还可以为迭代次数设置提前停止标准，例如如果在Y个迭代周期内没有学到X数量的知识，那么就停止学习。

希望这对你有所帮助。

祝你好运！

赞(0）回复(0）举报 9个月前

我来回答

bert 适合语言模型微调的适当训练步骤

1条答案

相关问题

热门标签

最新问答