PaddleOCR CRNN 训练模型思维厘清

oxf4rvwz  于 2022-11-13  发布在  其他
关注(0)|答案(2)|浏览(217)

想问一下,目前打算从头训练 CRNN 模型,要预测的内容为电脑上软体GUI界面截图内容包含英文文字、ASCII符号、数字。
在不确定要预测的字体情况下打算先找寻类似文字字体,
资料集打算只用随机生成合成图片 + 随机颜色背景,预计一个 label 至少出现 3000次,
所以英文字(52个)生成 16 万张,数字 (10个) 生成 3 万张,ASCII符号(32个)生成10万张,
因为只针对软体GUI界面基本文字所以不打算加入 Augmentation 变形,但好像又容易过拟和。

所以主要问题为:

  1. 请问这样的 scenario,还有需要加入真实图片达到 1:1 ~ 1:3 吗?
  2. 在软体 GUI 上英文出现的频率比符号和数字还多,那这样生成合成的资料集平衡是否正确?
insrf1ej

insrf1ej1#

  1. 如何合成数据在背景和字体上都和真实数据很接近,那不需要严格1:1 ~1:3,真实数据可以少些。
  2. 不需要语料平衡,语料频率分布与真实样本分布保持一致就可以。
yizd12fk

yizd12fk2#

@tink2123 感谢回复,
那目前会遇到过拟合的问题,所以还是需要加入TIA 图像变形扩充,以增加j文字复杂度 ?
那问一下这样的资料集数量是否合理?
目前预测的结果,在某些相似字还是会辨别错误,例如: A,4 S,5 -,~

相关问题