我针对我的分类任务微调了chinese_L-12_H-768_A-12模型,共有100个类别,但结果并不如预期。超参数为:学习率=2e-5,批量大小=16,迭代次数=3。当将迭代次数增加到10时,开发数据上的准确率有所提高,但仍然低于CNN。如果我使用更多的迭代次数,训练过程会收敛。您有什么建议吗?我需要尝试除MLP之外的复杂层吗,还是只需更改学习率,或者......?
kb5ga3dv1#
也感兴趣。
g9icjywg2#
我的结果更糟。
ff29svar3#
+1
3条答案
按热度按时间kb5ga3dv1#
也感兴趣。
g9icjywg2#
我的结果更糟。
ff29svar3#
+1