unilm [unimim] 不匹配的位置嵌入,关于vit-large/14的输入分辨率为196,

jexiocij  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(24)

你好,关于CLIP知识扩散论文,即《掩膜图像建模的统一视角:》,当老师使用CLIP vit-large/14处理196的输入分辨率时,学生使用vit-base/16处理224的输入分辨率。在这种情况下,CLIP vit-large/14的位置嵌入(即257)与我们老师的位置嵌入(即197)不匹配。请问如何解决这个问题以符合论文的要求?非常感谢!

0ve6wy6x

0ve6wy6x1#

请参考clip_model在beit v2代码库中的详细信息。
具体来说,使用interpolate_pos_encoding函数来调整位置嵌入的大小。

相关问题