unilm # epochs for finetuning LayoutLMv2 on DocVQA

mhd8tkvw  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(24)

我正在尝试重现LayoutLMv2 paper, Table 6, row 7中报告的结果。根据this example,我已经使用DocVQA训练集对基础模型进行了20个epoch的微调。与论文中报告的结果相比,结果模型表现不佳(大约有40%的答案默认为[CLS])。在继续调试代码的过程中,我想知道原始工作中用于微调模型的epoch数量是多少。

ymdaylpp

ymdaylpp1#

你使用哪个OCR工具进行DocVQA?

dwthyt8l

dwthyt8l2#

我使用了Tesseract,按照合作笔记本的步骤(我意识到这与您使用的不完全相同)。如果我切换到MS Read,我是否能得到相同的结果?或者,如果有一个在DocVQA上预训练并微调过的LayoutLMv2版本,您能否提供它?

rdrgkggo

rdrgkggo3#

我遇到了相同的问题,并使用了Tesseract和DocTR。如果能发布预训练模型,如Layoutlm模型,将不胜感激。

ekqde3dh

ekqde3dh4#

如果这对某人有帮助,我将提到的合作改编成一个完整的数据集训练脚本。它可以在Tesseract OCR或数据集OCR上进行训练。它明确地用于使用Tesseract评估LayoutLMv2在DocVQA上的性能,以展示较差的表现。它肯定没有优化,但应该相当不错。

相关问题