bert 适合语言模型微调的适当训练步骤

wz1wpwve  于 9个月前  发布在  其他
关注(0)|答案(1)|浏览(128)

我想根据我的自定义数据集微调BERT-base-uncased作为语言模型。它包括大约8000万条推文。我对于应该设置多少训练步骤以便进行最佳训练(不会出现欠拟合/过拟合)有些困惑。README中提到,实际上应该超过/大约10000步,但是对于我这样的大数据集呢?有人有估算吗?

w80xi6nr

w80xi6nr1#

你好,Sajiatsu。

我认为这将根据以下几点进行调整。如果你通过冻结语言模型层进行微调,那么我认为它不需要太多的迭代次数。如果你通过重新训练所有层进行微调,那么需要更多的迭代次数。此外,如果你首先使用自己的自定义数据集训练一个语言模型(通过使用检查点重新训练),那么需要更多的迭代次数。我认为最好的方法是通过实验找到最佳的迭代次数,另外,你还可以为迭代次数设置提前停止标准,例如如果在Y个迭代周期内没有学到X数量的知识,那么就停止学习。

希望这对你有所帮助。

祝你好运!

相关问题