unilm 关于max_2d_position_embedding维度的问题

hfyxw5xn  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(57)

描述

我正在使用的模型(UniLM,MiniLM,LayoutLM...):
我对代码中给定的max_2d_position_embedding的维度感到困惑,它是1024。我认为x、y或w、h只有一个维度,那么我们如何给一个具有1024维的向量来描述一个点?

dzjeubhm

dzjeubhm1#

我认为这是因为对于每个可能的x值、y值、w值和h值,你都有一个维度为hidden_size的向量。因此,每个嵌入层具有形状(max_2d_position_embeddings, hidden_size) = (1024, hidden_size)。虽然可以用一个标量值来表示这些位置中的每一个,但如果使用(可学习的)嵌入层,模型可能会更好地泛化。

相关问题