unilm 如何为新语言训练TrOCR?

72qzrwbm  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(48)

你好,我需要TrOCR支持印地语(Kannada)语言。我已经在huggingface hub上找到了印地语BERT模型,如何训练TrOCR以支持印地语以及如何生成一个数据集来训练模型?如果有相关参考资料,将不胜感激。谢谢!

wwwo4jvm

wwwo4jvm1#

基本上,你需要为Kannada准备训练数据。如果你有用Kannada写的任何文档,你可以使用那个。否则,你可以使用维基百科或其他数字生成的文档来生成训练数据。

y4ekin9u

y4ekin9u2#

hi, where to download pretrained models for Japanese, Korean, etc.? steve8000818@gmail.com

r8uurelv

r8uurelv3#

你好,我需要TrOCR支持印地语(Kannada)语言,我已经在huggingface hub上找到了印地语BERT模型,请问如何训练TrOCR以支持印地语,以及如何生成一个数据集来训练模型?如果有相关参考资料,将不胜感激。

谢谢!微调是可以的。TrOCR是一个带有BPE分词器的tokenizer。

qf9go6mv

qf9go6mv4#

你好,@wenyinlong。

你的意思是仅仅进行微调就可以了吗?因为TrOCR的tokenizer是用BPE的。我想用印尼语训练手写文本,我以为因为TrOCR中的编码器-解码器是用英语单词训练的,所以其他语言的文本数据将很难正确检测。你能解释一下吗?

qlckcl4x

qlckcl4x5#

基本上,你需要为印地语准备训练数据。如果你有用印地语写的任何文档,你可以使用那个。否则,你可以使用维基百科或其他数字生成的文档来生成训练数据。

我手头有很多印地语和其他印度语言的文本语料库。但是,为了在其他语言上训练TrOCR模型,数据应该如何/预处理?
样本对应该如何生成。使用文本语料库时,如何生成逐行级别的样本对(我认为这就是TrOCR是如何被训练的)

相关问题