如何基于BERT-Base中文模型提高多分类性能?

i5desfxk  于 4个月前  发布在  其他
关注(0)|答案(3)|浏览(52)

我针对我的分类任务微调了chinese_L-12_H-768_A-12模型,共有100个类别,但结果并不如预期。超参数为:学习率=2e-5,批量大小=16,迭代次数=3。当将迭代次数增加到10时,开发数据上的准确率有所提高,但仍然低于CNN。如果我使用更多的迭代次数,训练过程会收敛。您有什么建议吗?我需要尝试除MLP之外的复杂层吗,还是只需更改学习率,或者......?

相关问题