unilm 在单个模型中添加多个分类头进行训练

nwsw7zdq  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(44)

我想基于相同的架构训练一个模型,但是有两个不同的分类头。其中一个用于检测文档的布局,如表格、文本、标题、图形等;另一个用于检测表格内的单元格。目前我已经根据相同的架构为布局和表格内的单元格创建了两个不同的模型。
由于我已经为这两个不同的用例使用了相同的架构,我该如何使用这个单一模型来同时训练布局和表格内的单元格?
注意:我已经使用了表格内文本的OCR坐标,但结果并不理想,所以不想再使用它。

kwvwclae

kwvwclae1#

@Atul997 第一个问题,两种不同模型的准确性如何?它们是否足够好?

7ajki6be

7ajki6be2#

@wolfshow 是的,这两个模型的准确性都足够好。

bvhaajcl

bvhaajcl3#

这两个模型的 Backbone 网络是什么?

wf82jlnq

wf82jlnq4#

在publaynet和icdar配置中给定的两个模型的VIT Backbone 网络。

qkf9rpyu

qkf9rpyu5#

我认为这两个模型之间存在一些不兼容性,因为用于公共网络的DiT旨在检测大对象,而另一个用于表格单元格的模型则试图定位小对象。您也可以尝试使用LayoutLM从文本侧获取头部。

vlurs2pr

vlurs2pr6#

我可以尝试,但我不想在训练中包含文本,只想仅使用图像。如果可能的话,我可以根据性能选择任何一种配置。

相关问题