unilm 关于BeiT3预训练的问题

iaqfqrcu 于 2个月前发布在其他

关注(0)|答案(1)|浏览(30)

最近，我一直在阅读BeiT3论文，它给我留下了深刻的印象。然而，有一些细节我不太理解。在论文中，每一批包含2048张图片、2048段文本和2048个图片-文本对。你是如何选择ffn的？我想知道是否像ffn之前的输入那样被分成三部分，不同的部分属于不同的Maven。此外，三个损失(生成的图像模型损失、遮罩语言模型损失和遮罩视觉-语言模型损失)的权重分别是多少？

unilm

来源：https://github.com/microsoft/unilm/issues/1225