unilm TrOCR已添加到HuggingFace Transformers

m0rkklqb  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(31)

很高兴分享一下,TrOCR现在已经正式发布在HuggingFace Transformers中。
文档:https://huggingface.co/transformers/master/model_doc/trocr.html
有一个网络演示可用:https://huggingface.co/spaces/nielsr/TrOCR-handwritten
我已经制作了3个演示笔记本:

  • 推理(以及使用Gradio制作网络演示),可以在 here 找到。
  • 在自定义数据上微调TrOCR,可以在 here 找到。
  • 在IAM测试集上评估TrOCR的字符错误率(CER),可以在 here 找到。

它带有一个新类,名为 VisionEncoderDecoderModel ,可以与任何视觉Transformer编码器(如ViT、DeiT、BEiT)和任何文本Transformer解码器(如BERT、RoBERTa、GPT-2)混合搭配。交叉注意力层的权重是随机初始化的,并打算在下游数据集上进行微调。
我们已经有人将ViT与GPT-2模型结合用于图像标注,可以在 here 找到。这个模型是在JAX/FLAX上使用TPUv3训练的。

kzmpq1sx

kzmpq1sx1#

感谢@NielsRogge的辛勤工作!这太棒了!当我们正在使用动态位置嵌入处理TrOCR的小而微小的设置时,是否有任何脚本可以帮助我们将使用fairseq训练的模式转换为HF格式?

dy2hfwbg

dy2hfwbg2#

感谢您的信息!
是的,您可以使用我编写的 this script 将此存储库中的 Fairseq 检查点转换为 HuggingFace 对应项。
编辑:脚本现在位于不同的位置。

hpcdzsge

hpcdzsge3#

感谢@NielsRogge的辛勤工作!这太棒了!当我们在TrOCR中使用动态位置嵌入处理小型和微型设置时,是否有任何脚本可以将使用fairseq训练的模式转换为HF格式?

文件 "/opt/conda/lib/python3.8/site-packages/torch/distributed/launch.py",第255行,main函数中:
raise subprocess.CalledProcessError(returncode=process.returncode,
subprocess.CalledProcessError:命令 '['/opt/conda/bin/python', '-u', '/opt/conda/bin/fairseq-train', '--local_rank=3', '--data-type', 'STR', '--user-dir', './', '--task', 'text_recognition', '--arch', 'beit_large_decoder_large', ' ']'返回非零退出状态1。

uemypmqf

uemypmqf4#

伟大的集成@NielsRogge。我有一个问题。如果我的自定义数据集由两种混合语言组成,TrOcr是否能够识别它们?我认为TrOcr可以识别这些。谢谢。

相关问题