unilm TrOCR已添加到HuggingFace Transformers

m0rkklqb 于 2个月前发布在其他

关注(0)|答案(4)|浏览(31)

很高兴分享一下，TrOCR现在已经正式发布在HuggingFace Transformers中。
文档：https://huggingface.co/transformers/master/model_doc/trocr.html
有一个网络演示可用：https://huggingface.co/spaces/nielsr/TrOCR-handwritten
我已经制作了3个演示笔记本：

推理(以及使用Gradio制作网络演示),可以在 here 找到。
在自定义数据上微调TrOCR,可以在 here 找到。
在IAM测试集上评估TrOCR的字符错误率(CER),可以在 here 找到。

它带有一个新类，名为 VisionEncoderDecoderModel ,可以与任何视觉Transformer编码器(如ViT、DeiT、BEiT)和任何文本Transformer解码器(如BERT、RoBERTa、GPT-2)混合搭配。交叉注意力层的权重是随机初始化的，并打算在下游数据集上进行微调。
我们已经有人将ViT与GPT-2模型结合用于图像标注，可以在 here 找到。这个模型是在JAX/FLAX上使用TPUv3训练的。

unilm

来源：https://github.com/microsoft/unilm/issues/493

4条答案

按热度按时间

kzmpq1sx1#

感谢@NielsRogge的辛勤工作！这太棒了！当我们正在使用动态位置嵌入处理TrOCR的小而微小的设置时，是否有任何脚本可以帮助我们将使用fairseq训练的模式转换为HF格式？

赞(0）回复(0）举报 2个月前

dy2hfwbg2#

感谢您的信息！
是的，您可以使用我编写的 this script 将此存储库中的 Fairseq 检查点转换为 HuggingFace 对应项。
编辑：脚本现在位于不同的位置。

赞(0）回复(0）举报 2个月前

hpcdzsge3#

感谢@NielsRogge的辛勤工作！这太棒了！当我们在TrOCR中使用动态位置嵌入处理小型和微型设置时，是否有任何脚本可以将使用fairseq训练的模式转换为HF格式？

文件 "/opt/conda/lib/python3.8/site-packages/torch/distributed/launch.py",第255行，main函数中：
raise subprocess.CalledProcessError(returncode=process.returncode,
subprocess.CalledProcessError:命令 '['/opt/conda/bin/python', '-u', '/opt/conda/bin/fairseq-train', '--local_rank=3', '--data-type', 'STR', '--user-dir', './', '--task', 'text_recognition', '--arch', 'beit_large_decoder_large', ' ']'返回非零退出状态1。

赞(0）回复(0）举报 2个月前

uemypmqf4#

伟大的集成@NielsRogge。我有一个问题。如果我的自定义数据集由两种混合语言组成，TrOcr是否能够识别它们？我认为TrOcr可以识别这些。谢谢。

赞(0）回复(0）举报 2个月前