我正在尝试复制论文中提到的DIT模型。使用DALL-E编码器作为图像分词器,但没有在IIT-CDIP数据集上对其进行微调。使用了100万个文档进行训练,但模型没有收敛,因为损失停滞在4.19807。有人尝试复制该模型并更改了论文中提到的任何设置吗?
u0sqgete1#
我已经按照笔记本中提到的步骤进行了操作。
j13ufse22#
你好,@senthil-r-10你能复现MIM任务吗?
2条答案
按热度按时间u0sqgete1#
我已经按照笔记本中提到的步骤进行了操作。
j13ufse22#
你好,@senthil-r-10
你能复现MIM任务吗?