unilm [TrOCR] 图像纵横比

pu82cl6c 于 2个月前发布在其他

关注(0)|答案(2)|浏览(34)

你好，
我有一个问题，如果有人能提供一些见解，我会非常感激：

在将从PDF中提取的文本行和合成数据应用于模型时，您是否在将其调整为384x384大小时保持图像的纵横比？使用HuggingFace的TROCR预处理器时，我注意到它不会保持纵横比，因此我想了解这是否会影响模型的性能。
"textline" 是否包含单个图像中的多个单词，还是在将其输入到模型之前进一步按单词级别拆分图像？
您是否尝试在单词级别而不是行级别训练模型，并注意到任何差异？

来源：https://github.com/microsoft/unilm/issues/867

2条答案

按热度按时间

有人能回应这个问题吗？

赞(0）回复(0）举报 2个月前

你好，我有以下三个问题，如果有人能提供一些见解，我将非常感激：

在将从PDF中提取的文本行和合成数据应用于模型时，您是否在将其调整为384x384大小时保持图像的纵横比？使用HuggingFace的TROCR预处理器时，我注意到它不会保持纵横比，因此我想了解这是否会影响模型的性能。
"textline"是否包含单个图像中的多个单词，还是在将其输入到模型之前进一步按单词级别拆分图像？
您是否尝试在单词级别而不是行级别训练模型，并注意到任何差异？
他们使用384x384设置来处理打印(单词级别)和手写(行级别)文本。我认为他们使用正方形图像来适应DeiT模型。
Textline在一个图像中包含多个单词

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前