unilm [TrOCR] 图像纵横比

pu82cl6c  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(34)

你好,
我有一个问题,如果有人能提供一些见解,我会非常感激:

  1. 在将从PDF中提取的文本行和合成数据应用于模型时,您是否在将其调整为384x384大小时保持图像的纵横比?使用HuggingFace的TROCR预处理器时,我注意到它不会保持纵横比,因此我想了解这是否会影响模型的性能。
  2. "textline" 是否包含单个图像中的多个单词,还是在将其输入到模型之前进一步按单词级别拆分图像?
  3. 您是否尝试在单词级别而不是行级别训练模型,并注意到任何差异?
u91tlkcl

u91tlkcl1#

有人能回应这个问题吗?

pexxcrt2

pexxcrt22#

你好,我有以下三个问题,如果有人能提供一些见解,我将非常感激:

  1. 在将从PDF中提取的文本行和合成数据应用于模型时,您是否在将其调整为384x384大小时保持图像的纵横比?使用HuggingFace的TROCR预处理器时,我注意到它不会保持纵横比,因此我想了解这是否会影响模型的性能。
  2. "textline"是否包含单个图像中的多个单词,还是在将其输入到模型之前进一步按单词级别拆分图像?
  3. 您是否尝试在单词级别而不是行级别训练模型,并注意到任何差异?
  4. 他们使用384x384设置来处理打印(单词级别)和手写(行级别)文本。我认为他们使用正方形图像来适应DeiT模型。
  5. Textline在一个图像中包含多个单词

相关问题