unilm 如何为新语言训练TrOCR?

72qzrwbm 于 8个月前发布在其他

关注(0)|答案(5)|浏览(100)

你好，我需要TrOCR支持印地语(Kannada)语言。我已经在huggingface hub上找到了印地语BERT模型，如何训练TrOCR以支持印地语以及如何生成一个数据集来训练模型？如果有相关参考资料，将不胜感激。谢谢！

5条答案

基本上，你需要为Kannada准备训练数据。如果你有用Kannada写的任何文档，你可以使用那个。否则，你可以使用维基百科或其他数字生成的文档来生成训练数据。

hi, where to download pretrained models for Japanese, Korean, etc.? steve8000818@gmail.com

你好，我需要TrOCR支持印地语(Kannada)语言，我已经在huggingface hub上找到了印地语BERT模型，请问如何训练TrOCR以支持印地语，以及如何生成一个数据集来训练模型？如果有相关参考资料，将不胜感激。

谢谢！微调是可以的。TrOCR是一个带有BPE分词器的tokenizer。

你好，@wenyinlong。

你的意思是仅仅进行微调就可以了吗？因为TrOCR的tokenizer是用BPE的。我想用印尼语训练手写文本，我以为因为TrOCR中的编码器-解码器是用英语单词训练的，所以其他语言的文本数据将很难正确检测。你能解释一下吗？

基本上，你需要为印地语准备训练数据。如果你有用印地语写的任何文档，你可以使用那个。否则，你可以使用维基百科或其他数字生成的文档来生成训练数据。

我手头有很多印地语和其他印度语言的文本语料库。但是，为了在其他语言上训练TrOCR模型，数据应该如何/预处理？
样本对应该如何生成。使用文本语料库时，如何生成逐行级别的样本对(我认为这就是TrOCR是如何被训练的)