unilm BEiTv2 MIM准确率

whitzsjs  于 3个月前  发布在  其他
关注(0)|答案(3)|浏览(39)

描述

我正在使用的是BEiTv2 ViT-L/16模型。
我使用vqkd分词器进行了1K次预训练,似乎MIM(Masked Image Model)的准确率没有达到40~50%。
你能提供使用分词器进行1K次预训练的日志或准确率参考吗?
另外,如果你有针对1K次预训练的评估结果,能否与我们分享?

mcvgt66p

mcvgt66p1#

关于BEiTv2 ViT-B/16,您有什么问题吗?

xxslljrj

xxslljrj2#

你好,
使用vqkd tokenzier预训练ViT-L/16时,MIM准确率约为16%。
当预训练计划为1600时,准确率略有提高:

pbossiut

pbossiut3#

感谢您!我们在训练过程中也发现了相同的趋势。
在训练过程中,模型在每个尺度上的表现都更好,能够根据视觉信息预测遮罩区域。
即使很难准确预测所有尺度,最新的检查点表现得更好。

相关问题