PaddleOCR 使用crnn识别模型训练一段时间过拟合

mutmk8jj  于 2022-11-13  发布在  其他
关注(0)|答案(4)|浏览(217)

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

  • 系统环境/System Environment:2.12
  • 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components:1.1
  • 运行指令/Command Code:
  • 完整报错/Complete Error Message:使用官网提供的预训练模型进行识别训练,训练集包括60万张真实数据和250万张生成数据,使用真实数据和生成数据1:1动态采样进行训练,训练集准确度92%左右,测试集准确度为79左右,训练60多个epoch loss就不下降开始增加,训练过拟合了,请问这种情况除了官网说明的增加l2_decay值,还有其他解决方案吗。
xtfmy6hx

xtfmy6hx1#

可以尝试添加数据增强,使用cosine decay学习率衰减策略。
另外建议分析下badcase,有针对性的添加同场景的训练数据。

kxe2p93d

kxe2p93d2#

非常感谢,准备验证一下这些训练策略

8oomwypt

8oomwypt3#

你好,我想请问一下怎么获取badcase,怎么知道测试集哪些图片在测试时结果较差?我测试的时候只得到了准确率和norm_edit_distance

xfyts7mz

xfyts7mz4#

你可以编写一个脚本把你测试集图片的识别结果、识别阈值和真实的样本标签对应一下,就可以判断你的测试集识别性能,然后把你的badcase统计一下就好了,我训练时的过拟合是因为训练集准确度很高,测试集准确度比较高。…

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleOCR" ***@***.***>; 发送时间: 2022年9月5日(星期一) 下午3:04 ***@***.***>; ***@***.******@***.***>; 主题: Re: [PaddlePaddle/PaddleOCR] 使用crnn识别模型训练一段时间过拟合 (Issue #6920) 你好,我想请问一下怎么获取badcase,怎么知道测试集哪些图片在测试时结果较差?我测试的时候只得到了准确率和norm_edit_distance — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

相关问题