unilm Beit3培训批次流程

ruoxqz4g  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(38)

在对不同模态的批次进行训练beit3时,我想知道你是为每种数据类型(图像、文本、图像-文本)的每次迭代执行3次前向传播,还是将它们全部批量到一次前向传播中?
从我的理解来看,进行3次独立的前向传播,然后计算损失具有以下优势:可以减少所需的填充,这可能有助于提高准确性和速度。然而,只进行一次前向传播也可能更快,因为你只需要进行一次前向传播,而不是3次。

polhcujo

polhcujo1#

你好,@PeterDykas,
感谢你的提问。对于不同模态数据的不同最大长度,我们进行了三次前向传递,分别处理图像、文本和图像-文本对。

wn9m85ua

wn9m85ua2#

亲爱的,@wenhui0924
我想知道当这三个数据长度不等时,你是如何混合它们的。
谢谢!

jhiyze9q

jhiyze9q3#

BEiT-3的代码和预训练模型可以在aka.ms/beit3找到。

相关问题