unilm 关于BeiT3预训练的问题

iaqfqrcu  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(30)

最近,我一直在阅读BeiT3论文,它给我留下了深刻的印象。然而,有一些细节我不太理解。在论文中,每一批包含2048张图片、2048段文本和2048个图片-文本对。你是如何选择ffn的?我想知道是否像ffn之前的输入那样被分成三部分,不同的部分属于不同的Maven。此外,三个损失(生成的图像模型损失、遮罩语言模型损失和遮罩视觉-语言模型损失)的权重分别是多少?

db2dz4w8

db2dz4w81#

我希望你能提供BeiT3的预训练代码。

相关问题