unilm BEiT2中的VQKD问题

frebpwbc  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(32)

嘿,
感谢发布BEiT2的代码。我有一个关于BEiT2中VQKD的问题,特别是关于解码器的问题。如果我理解正确的话,VQKD旨在重构CLIP/DINO特征向量,而不是实际图像,这是正确的吗?
为了确保,没有办法通过VQKD解码通过VQKD编码的图像回退到图像,相反,我们只能将其解码回DINO/CLIP表示的图像?
谢谢,
Eliahu

2eafrhcq

2eafrhcq1#

亲爱的Eliahu:
抱歉回复晚了。
这是正确的。
VQKD旨在重构CLIP/DINO特征向量,而不是实际图像。
实际上,我们也可以获得一个解码器来重构图像像素。但目的仅仅是为了可视化。特别是,我们在冻结编码器和码本的同时添加了一个额外的解码器来重构像素。然后原始编码器与码本一起工作,新的额外解码器就像普通的VQ-VAE一样。
谢谢!
Zhiliang。

sy5wg1nm

sy5wg1nm2#

感谢您的回复!
您是否训练了像素解码器?如果是,您将在何时发布检查点?

nhjlsmyf

nhjlsmyf3#

我也希望利用解码器的权重。如果我们有解码器,BEiTv2可以从具有缺失补丁的图像(例如Masked Autoencoder)中可视化一个合理的图像(即插值图像),对吗?

cbjzeqam

cbjzeqam4#

实际上,我们也可以获得一个解码器来重构图像像素。但目的仅仅是为了可视化。特别是,我们在冻结编码器和码本的同时添加了一个额外的解码器来重构像素。然后原始的带有码本的编码器和新的额外解码器就像普通的VQ-VAE一样工作。
你好,你会发布用于重构图像像素的解码器的网络和权重吗?
谢谢!

相关问题