unilm Faster RCNN在论文中布局，而不是在仓库中,

bpzcxfmw 于 10个月前发布在其他

关注(0)|答案(5)|浏览(97)

Hi - 在这篇论文中，使用了layoutlm架构与两个独立的实体一起工作，一个是用于从图像中提取文本的HTR或OCR模型，将其输入到模型中进行单词级别的分类(问题、答案等),还需要额外的分类来从文档中提取问题和答案。此外，还展示了如何将Faster-RCNN与layoutlm的输出结合使用，但其存在/使用情况尚不清楚：

我的问题是，这个仓库中是否使用了Faster RCNN?如果使用了，它位于哪里？

unilm

来源：https://github.com/microsoft/unilm/issues/249

5条答案

按热度按时间

bweufnob1#

无法找到使用的图像嵌入。

赞(0）回复(0）举报 9个月前

ffscu2ro2#

我的猜测是它没有包含在repo中，然而它可能是原始FUNSD论文中引用的FCNN,我还没有找到一个repo。似乎Layoutlm嵌入和FCNN嵌入可以一起使用，但我不太明白。

赞(0）回复(0）举报 9个月前

enxuqcxy3#

您是对的，论文中提到的Faster RCNN不在这个仓库中。您可以使用任何现成的Faster RCNN模型来结合LayoutLM模型的输出。请查看我在这里的问题：#163
您可能需要添加一个额外的全连接层，以使特征维度匹配。

赞(0）回复(0）举报 9个月前

oxcyiej74#

你可能需要添加一个额外的全连接层，以使特征维度匹配。

嘿 @w-cheng 非常感谢你的回复，我想我的问题是 FUNSD 论文本身使用 pytorch 训练了一个 Faster RCNN,但我不太清楚如何在 pytorch 中处理问题-答案等注解，以及如何编辑 FUNSD 数据集以便将其用作 pytorch 或其他地方的 Faster RCNN 的训练集。你有什么建议可以参考的教程/仓库吗？任何和所有的帮助都将非常感激。

赞(0）回复(0）举报 9个月前

guykilcj5#

@elnazsn1988 非常感谢您。从我的理解来看，FUNSD论文使用Mask-RCNN训练了一个文本对象检测器。

Mask-RCNN的训练数据集需要的是每个图像中每个物体的类别和边界框。

在FUNSD数据集的情况下，将有两个类别：文本和背景，每个文本对象的边界框是json文件中的box元素。我认为您需要编写一个脚本，将它们转换为适合您选择的任何Mask-RCNN实现的格式。

就教程/仓库而言，这可能会很有用：https://github.com/matterport/Mask_RCNN,它讲述了如何在自定义训练数据集上训练Mask RCNN。

玩具形状数据集示例将是一个很好的起点，以了解训练过程：https://github.com/matterport/Mask_RCNN/blob/master/samples/shapes/train_shapes.ipynb

赞(0）回复(0）举报 9个月前