你好,关于CLIP知识扩散论文,即《掩膜图像建模的统一视角:》,当老师使用CLIP vit-large/14处理196的输入分辨率时,学生使用vit-base/16处理224的输入分辨率。在这种情况下,CLIP vit-large/14的位置嵌入(即257)与我们老师的位置嵌入(即197)不匹配。请问如何解决这个问题以符合论文的要求?非常感谢!
0ve6wy6x1#
请参考clip_model在beit v2代码库中的详细信息。具体来说,使用interpolate_pos_encoding函数来调整位置嵌入的大小。
1条答案
按热度按时间0ve6wy6x1#
请参考clip_model在beit v2代码库中的详细信息。
具体来说,使用interpolate_pos_encoding函数来调整位置嵌入的大小。