我有一个同事建立的预训练模型。我有一个完全相同的模型(网络架构),是我自己构建和训练的。相同的意思是模型总结是相同的,它们具有完全相同数量的可训练变量和不可训练变量。我可以在两种型号之间互换重量。奇怪的是,在他们的模型中,变量文件的大小大约是我的50%。如果我加载并保存他们的模型,权重文件保持不变(50%)。可能相关的是,与预训练模型相比,我的模型的性能很糟糕。你知道两个相同的模型怎么会有不同大小的权重文件吗?
hgqdbh6s1#
结果发现我们使用了不同的优化器。优化器状态与模型网络和权重一起存储。
1条答案
按热度按时间hgqdbh6s1#
结果发现我们使用了不同的优化器。优化器状态与模型网络和权重一起存储。