最近,我一直在阅读BeiT3论文,它给我留下了深刻的印象。然而,有一些细节我不太理解。在论文中,每一批包含2048张图片、2048段文本和2048个图片-文本对。你是如何选择ffn的?我想知道是否像ffn之前的输入那样被分成三部分,不同的部分属于不同的Maven。此外,三个损失(生成的图像模型损失、遮罩语言模型损失和遮罩视觉-语言模型损失)的权重分别是多少?
db2dz4w81#
我希望你能提供BeiT3的预训练代码。
1条答案
按热度按时间db2dz4w81#
我希望你能提供BeiT3的预训练代码。