嘿,感谢发布BEiT2的代码。我有一个关于BEiT2中VQKD的问题,特别是关于解码器的问题。如果我理解正确的话,VQKD旨在重构CLIP/DINO特征向量,而不是实际图像,这是正确的吗?为了确保,没有办法通过VQKD解码通过VQKD编码的图像回退到图像,相反,我们只能将其解码回DINO/CLIP表示的图像?谢谢,Eliahu
2eafrhcq1#
亲爱的Eliahu:抱歉回复晚了。这是正确的。VQKD旨在重构CLIP/DINO特征向量,而不是实际图像。实际上,我们也可以获得一个解码器来重构图像像素。但目的仅仅是为了可视化。特别是,我们在冻结编码器和码本的同时添加了一个额外的解码器来重构像素。然后原始编码器与码本一起工作,新的额外解码器就像普通的VQ-VAE一样。谢谢!Zhiliang。
sy5wg1nm2#
感谢您的回复!您是否训练了像素解码器?如果是,您将在何时发布检查点?
nhjlsmyf3#
我也希望利用解码器的权重。如果我们有解码器,BEiTv2可以从具有缺失补丁的图像(例如Masked Autoencoder)中可视化一个合理的图像(即插值图像),对吗?
cbjzeqam4#
实际上,我们也可以获得一个解码器来重构图像像素。但目的仅仅是为了可视化。特别是,我们在冻结编码器和码本的同时添加了一个额外的解码器来重构像素。然后原始的带有码本的编码器和新的额外解码器就像普通的VQ-VAE一样工作。你好,你会发布用于重构图像像素的解码器的网络和权重吗?谢谢!
4条答案
按热度按时间2eafrhcq1#
亲爱的Eliahu:
抱歉回复晚了。
这是正确的。
VQKD旨在重构CLIP/DINO特征向量,而不是实际图像。
实际上,我们也可以获得一个解码器来重构图像像素。但目的仅仅是为了可视化。特别是,我们在冻结编码器和码本的同时添加了一个额外的解码器来重构像素。然后原始编码器与码本一起工作,新的额外解码器就像普通的VQ-VAE一样。
谢谢!
Zhiliang。
sy5wg1nm2#
感谢您的回复!
您是否训练了像素解码器?如果是,您将在何时发布检查点?
nhjlsmyf3#
我也希望利用解码器的权重。如果我们有解码器,BEiTv2可以从具有缺失补丁的图像(例如Masked Autoencoder)中可视化一个合理的图像(即插值图像),对吗?
cbjzeqam4#
实际上,我们也可以获得一个解码器来重构图像像素。但目的仅仅是为了可视化。特别是,我们在冻结编码器和码本的同时添加了一个额外的解码器来重构像素。然后原始的带有码本的编码器和新的额外解码器就像普通的VQ-VAE一样工作。
你好,你会发布用于重构图像像素的解码器的网络和权重吗?
谢谢!