unilm 重建图像与原始图像在自学习的BeitForMaskedImageModeling中有所不同,

gwbalxhn 于 9个月前发布在其他

关注(0)|答案(9)|浏览(150)

亲爱的作者们，
我想将部分遮罩的图像恢复到原始图像。然而，最终的结果与原始图像有很大差异。
我使用了：+) BeitForMaskedImageModeling作为编码器(来自https://huggingface.co/transformers/master/model_doc/beit.html)
+)来自dall_e的解码器(来自https://github.com/openai/DALL-E)

你能告诉我为什么重建的图像和原始图像有很大的差异吗？
你能上传解码器在自学习中的最终检查点以恢复遮罩图像吗？
这是我的代码：
https://github.com/vince2003/recontruction/blob/main/beit_dall_simple.ipynb
谢谢！

unilm

来源：https://github.com/microsoft/unilm/issues/401

9条答案

按热度按时间

kq0g1dla1#

你好，我实现了BeitForMaskedImageModeling。它对于相同的pixel_values和bool_masked_pos返回与原始实现完全相同的logits。然而，当在图像上测试它时，它预测的视觉标记中没有一个与DALL-E的分词器中的地面真实视觉标记相对应。
@donglixp 如果您能查看我的笔记本：https://colab.research.google.com/drive/1Mjt-3jHw9HYMXECmSdDlbiG59ZAw-Z0T?usp=sharing,那就太好了。

赞(0）回复(0）举报 9个月前

nnt7mjpx2#

@addf400 可以查看上面的笔记本进行双重检查。

赞(0）回复(0）举报 9个月前

bxpogfeg3#

OpenAI的公共解码器(https://cdn.openai.com/dall-e/decoder.pkl)是否可能与本工作中使用的解码器略有不同？我遇到了同样的问题，即从BeitForMaskedImageModeling重构的输出质量远低于输入，即使没有应用掩码。然而，它们之间还是有一些相似之处。我很想知道这方面是否有任何进展~

赞(0）回复(0）举报 9个月前

guykilcj4#

# Download the tokenizer weight from OpenAI's DALL-E
TOKENIZER_PATH=/path/to/save/dall_e_tokenizer_weight
mkdir -p $TOKENIZER_PATH
wget -o $TOKENIZER_PATH/encoder.pkl https://cdn.openai.com/dall-e/encoder.pkl
wget -o $TOKENIZER_PATH/decoder.pkl https://cdn.openai.com/dall-e/decoder.pkl

赞(0）回复(0）举报 9个月前

pod7payv5#

@NielsRogge, @addf400
我使用了与NielsRogge的笔记本相同的方法进行BEiT模型推理。我多次运行了他的笔记本代码，每次使用不同的bool_masked_pos。在75个遮罩位置中，我得到了0、1或2次正确预测。因此，NielsRogge关于0次正确预测的帖子只是随机的。如果尝试多次，它可能是1或2次。
然而，0/1/2仍然相当低。这是预期的吗？

赞(0）回复(0）举报 9个月前

mum43rcc6#

你们有人能解决这个问题吗？
我得到了类似的结果，掩码区域的预测是错误的，因此重建(解码)的图像在掩码区域中具有错误和随机值。

赞(0）回复(0）举报 9个月前

kse8i1jr7#

你们有人能解决这个问题吗？我得到了类似的结果，掩码区域的预测是错误的，因此重建(解码)图像在掩码区域中出现了错误和随机值。
根据我的测试，我的“糟糕”结果是可以预料到的BeiT模型。我在测试时使用了线性探测。使用BeiT基本模型进行线性探测效果不佳。关于https://openreview.net/pdf?id=p-BhZSz59o4的BeiT论文中的审查表9有一些详细的结果。

赞(0）回复(0）举报 9个月前

wqnecbli8#

你们有人能解决这个问题吗？我得到了类似的结果，掩码区域的预测是错误的，因此重建(解码)图像在掩码区域中有错误和随机值。
根据我的测试，我的“糟糕”结果是可以预料到的BeiT模型。我在测试时使用了线性探测。使用BeiT基础模型进行线性探测效果不佳。关于https://openreview.net/pdf?id=p-BhZSz59o4表格9的已审查的BeiT论文有一些详细的结果。
我不确定我是否理解，线性探测与最终类别预测有关。我看到的错误预测是关于标记的，我认为即使使用预训练特征进行正确的标记重构也可以工作，因为这不需要类特定信息。

赞(0）回复(0）举报 9个月前

jhdbpxl99#

对不起，我之前的帖子没有说清楚。在我的案例中，我使用了线性探测法进行最终类别预测。与DINO等其他模型相比，线性探测的结果并不理想。对于您的具体问题，我不确定。

赞(0）回复(0）举报 9个月前