unilm Some ideas for developing Mask Language Modeling, Mask Image Modeling and Word-Patch Alignment for LayoutLMv3

blpfk2vs  于 1个月前  发布在  其他
关注(0)|答案(2)|浏览(33)

你好,对于任何对LayoutLMv3实现感兴趣的人。转换器已经更新了用于遮罩图像建模的代码,该代码基于DEIT。你可以继承这段代码来实现LayoutLMv3的遮罩图像建模,也可以从RoBERTa继承代码来实现遮罩语言建模。至于词-补丁对齐,我仍在进行中。欢迎大家讨论。
以下是链接:
RoBERTa遮罩语言建模示例
DEIT遮罩图像建模示例
More ideas for developing word patch alignment
其他相关问题链接
huggingface/transformers#13235
#772

cigdeys3

cigdeys31#

你好,我想补充一下,如果你正在寻找灵感,这里有一个名为https://github.com/dandelin/ViLT/blob/master/vilt/modules/vilt_module.py的项目。'objectives.compute_itm_wpa'是他们的实现。我需要为我的闭源项目进行调整,但我希望我们能在这里建立一些东西。

dgsult0t

dgsult0t2#

我正在使用LayoutLMv3进行目标检测,但无法获得input_ids、bbox和attention_mask,只获得了图像。你能帮忙吗?

相关问题