unilm Faster RCNN在论文中布局,而不是在仓库中,

bpzcxfmw  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(48)

Hi - 在这篇论文中,使用了layoutlm架构与两个独立的实体一起工作,一个是用于从图像中提取文本的HTR或OCR模型,将其输入到模型中进行单词级别的分类(问题、答案等),还需要额外的分类来从文档中提取问题和答案。此外,还展示了如何将Faster-RCNN与layoutlm的输出结合使用,但其存在/使用情况尚不清楚:

我的问题是,这个仓库中是否使用了Faster RCNN?如果使用了,它位于哪里?

bweufnob

bweufnob1#

无法找到使用的图像嵌入。

ffscu2ro

ffscu2ro2#

我的猜测是它没有包含在repo中,然而它可能是原始FUNSD论文中引用的FCNN,我还没有找到一个repo。似乎Layoutlm嵌入和FCNN嵌入可以一起使用,但我不太明白。

enxuqcxy

enxuqcxy3#

您是对的,论文中提到的Faster RCNN不在这个仓库中。您可以使用任何现成的Faster RCNN模型来结合LayoutLM模型的输出。请查看我在这里的问题:#163
您可能需要添加一个额外的全连接层,以使特征维度匹配。

oxcyiej7

oxcyiej74#

你可能需要添加一个额外的全连接层,以使特征维度匹配。

嘿 @w-cheng 非常感谢你的回复,我想我的问题是 FUNSD 论文本身使用 pytorch 训练了一个 Faster RCNN,但我不太清楚如何在 pytorch 中处理问题-答案等注解,以及如何编辑 FUNSD 数据集以便将其用作 pytorch 或其他地方的 Faster RCNN 的训练集。你有什么建议可以参考的教程/仓库吗?任何和所有的帮助都将非常感激。

guykilcj

guykilcj5#

@elnazsn1988 非常感谢您。从我的理解来看,FUNSD论文使用Mask-RCNN训练了一个文本对象检测器。

Mask-RCNN的训练数据集需要的是每个图像中每个物体的类别和边界框。

在FUNSD数据集的情况下,将有两个类别:文本和背景,每个文本对象的边界框是json文件中的box元素。我认为您需要编写一个脚本,将它们转换为适合您选择的任何Mask-RCNN实现的格式。

就教程/仓库而言,这可能会很有用:https://github.com/matterport/Mask_RCNN,它讲述了如何在自定义训练数据集上训练Mask RCNN。

玩具形状数据集示例将是一个很好的起点,以了解训练过程:https://github.com/matterport/Mask_RCNN/blob/master/samples/shapes/train_shapes.ipynb

相关问题