通过查看recently posted codebase,我注意到modeling_layoutlmv2.py没有包含文档或序列分类的实现。原始的LayoutLMv2论文描述了:
Fine-tuning LayoutLMv2 for Document Image Classification This task depends on high-level
visual information, thereby we leverage the image features explicitly in the fine-tuning. We pool the
visual embeddings into a global pre-encoder feature, and pool the visual part of LayoutLMv2 output
representations into a global post-encoder feature. The pre and post-encoder features along with the
[CLS] output feature are concatenated and fed into the final classification layer
是否有关于微调LayoutLMv2或LayoutXLM进行文档分类的例子?如果没有,您是否计划在未来添加此类示例?
如果您不打算添加这样的示例,您能为那些希望添加此功能的人提供一些见解吗?实现是否会遵循在已弃用的LayoutLM遗留代码中呈现的模式?
3条答案
按热度按时间x759pob21#
是的,您可以按照LayoutLMv1的实现方法来微调[CLS]输出。
ilmyapht2#
是的,你可以按照LayoutLMv1的实现来微调[CLS]输出。
感谢@wolfshow的回复。我正在尝试使用现有的LayoutLMv2Model的池化输出(
[CLS]
)构建一个基本版本,现在我正试图添加论文中描述的全局前置和后置编码器视觉特征(在原始帖子中引用)。我不知道如何处理描述的池化。我修改了现有的
LayoutLMv2Model
的前向实现,使其返回视觉嵌入如下:然后我的派生模型试图利用这些嵌入:
[CLS]
的输出特征具有维度(batch_size, 768)
,而视觉嵌入和输出具有维度(batch_size, 49, 768)
。我不知道如何对这些视觉特征进行池化。你能提供方向并可能提供一些关于如何更好地实现上面提到的
VisualPooler
的建议吗?iq0todco3#
你好,@dcyoung,
感谢你发布这个问题,我也想使用LayoutLMv2进行文档分类。
你能分享一下你的代码片段吗?
谢谢,
Dhananjay