描述
我正在使用的是BEiTv2 ViT-L/16模型。我使用vqkd分词器进行了1K次预训练,似乎MIM(Masked Image Model)的准确率没有达到40~50%。你能提供使用分词器进行1K次预训练的日志或准确率参考吗?另外,如果你有针对1K次预训练的评估结果,能否与我们分享?
mcvgt66p1#
关于BEiTv2 ViT-B/16,您有什么问题吗?
xxslljrj2#
你好,使用vqkd tokenzier预训练ViT-L/16时,MIM准确率约为16%。当预训练计划为1600时,准确率略有提高:
pbossiut3#
感谢您!我们在训练过程中也发现了相同的趋势。在训练过程中,模型在每个尺度上的表现都更好,能够根据视觉信息预测遮罩区域。即使很难准确预测所有尺度,最新的检查点表现得更好。
3条答案
按热度按时间mcvgt66p1#
关于BEiTv2 ViT-B/16,您有什么问题吗?
xxslljrj2#
你好,
使用vqkd tokenzier预训练ViT-L/16时,MIM准确率约为16%。
当预训练计划为1600时,准确率略有提高:
pbossiut3#
感谢您!我们在训练过程中也发现了相同的趋势。
在训练过程中,模型在每个尺度上的表现都更好,能够根据视觉信息预测遮罩区域。
即使很难准确预测所有尺度,最新的检查点表现得更好。