PaddleOCR 使用crnn识别模型训练一段时间过拟合

mutmk8jj 于 2022-11-13 发布在其他

关注(0)|答案(4)|浏览(217)

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：2.12
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components：1.1
运行指令/Command Code：
完整报错/Complete Error Message：使用官网提供的预训练模型进行识别训练，训练集包括60万张真实数据和250万张生成数据，使用真实数据和生成数据1:1动态采样进行训练，训练集准确度92%左右，测试集准确度为79左右，训练60多个epoch loss就不下降开始增加，训练过拟合了，请问这种情况除了官网说明的增加l2_decay值，还有其他解决方案吗。

paddleocr

来源：https://github.com/PaddlePaddle/PaddleOCR/issues/6920

4条答案

按热度按时间

xtfmy6hx1#

可以尝试添加数据增强，使用cosine decay学习率衰减策略。
另外建议分析下badcase，有针对性的添加同场景的训练数据。

赞(0）回复(0）举报 2022-11-13

kxe2p93d2#

非常感谢，准备验证一下这些训练策略

赞(0）回复(0）举报 2022-11-13

8oomwypt3#

你好，我想请问一下怎么获取badcase，怎么知道测试集哪些图片在测试时结果较差？我测试的时候只得到了准确率和norm_edit_distance

赞(0）回复(0）举报 2022-11-13

xfyts7mz4#

你可以编写一个脚本把你测试集图片的识别结果、识别阈值和真实的样本标签对应一下，就可以判断你的测试集识别性能，然后把你的badcase统计一下就好了，我训练时的过拟合是因为训练集准确度很高，测试集准确度比较高。…

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleOCR" ***@***.***>; 发送时间: 2022年9月5日(星期一) 下午3:04 ***@***.***>; ***@***.******@***.***>; 主题: Re: [PaddlePaddle/PaddleOCR] 使用crnn识别模型训练一段时间过拟合 (Issue #6920) 你好，我想请问一下怎么获取badcase，怎么知道测试集哪些图片在测试时结果较差？我测试的时候只得到了准确率和norm_edit_distance — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

赞(0）回复(0）举报 2022-11-13

我来回答

PaddleOCR 使用crnn识别模型训练一段时间过拟合

4条答案

相关问题

热门标签

最新问答