首页
问答库
知识库
教程库
标签
AI工具箱
登录
注册
投稿
unilm [TrOCR] 图像纵横比
pu82cl6c
于 2个月前
发布在
其他
关注(0)
|
答案(2)
|
浏览(35)
你好,
我有一个问题,如果有人能提供一些见解,我会非常感激:
在将从PDF中提取的文本行和合成数据应用于模型时,您是否在将其调整为384x384大小时保持图像的纵横比?使用HuggingFace的TROCR预处理器时,我注意到它不会保持纵横比,因此我想了解这是否会影响模型的性能。
"textline" 是否包含单个图像中的多个单词,还是在将其输入到模型之前进一步按单词级别拆分图像?
您是否尝试在单词级别而不是行级别训练模型,并注意到任何差异?
unilm
来源:
https://github.com/microsoft/unilm/issues/867
关注
举报
2
条答案
按热度
按时间
u91tlkcl
1#
有人能回应这个问题吗?
赞(0)
分享
回复(0)
举报  
2个月前
pexxcrt2
2#
你好,我有以下三个问题,如果有人能提供一些见解,我将非常感激:
在将从PDF中提取的文本行和合成数据应用于模型时,您是否在将其调整为384x384大小时保持图像的纵横比?使用HuggingFace的TROCR预处理器时,我注意到它不会保持纵横比,因此我想了解这是否会影响模型的性能。
"textline"是否包含单个图像中的多个单词,还是在将其输入到模型之前进一步按单词级别拆分图像?
您是否尝试在单词级别而不是行级别训练模型,并注意到任何差异?
他们使用384x384设置来处理打印(单词级别)和手写(行级别)文本。我认为他们使用正方形图像来适应DeiT模型。
Textline在一个图像中包含多个单词
赞(0)
分享
回复(0)
举报  
2个月前
首页
上一页
1
下一页
末页
我来回答
相关问题
查看更多
热门标签
更多
Java
query
python
Node
开发语言
request
Util
数据库
Table
后端
算法
Logger
Message
Element
Parser
最新问答
更多
xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1)
发布于
21天前
xxl-job 不能和nacos兼容?
回答(3)
发布于
21天前
xxl-job 任务执行完后无法结束,日志一直转圈
回答(3)
发布于
21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1)
发布于
21天前
xxl-job 参数512字符限制能否去掉
回答(1)
发布于
21天前
2条答案
按热度按时间u91tlkcl1#
有人能回应这个问题吗?
pexxcrt22#
你好,我有以下三个问题,如果有人能提供一些见解,我将非常感激: