看了知乎链接的教程,尝试训练encoder
练了半天,这结果似乎没什么变化
数据自建的,有2个多G
问题1:这种情况是正常的吗?如果不正常是什么原因造成的?
问题2:根据知乎上的说法“实测了一次 训练synthesizer时,4000左右step就能attention收敛,22k step的时候loss就到0.35了,可以很快进行finetune,算是超越预期。”,训练synthesizer时,如何把encoder加入?
看了知乎链接的教程,尝试训练encoder
练了半天,这结果似乎没什么变化
数据自建的,有2个多G
问题1:这种情况是正常的吗?如果不正常是什么原因造成的?
问题2:根据知乎上的说法“实测了一次 训练synthesizer时,4000左右step就能attention收敛,22k step的时候loss就到0.35了,可以很快进行finetune,算是超越预期。”,训练synthesizer时,如何把encoder加入?
2条答案
按热度按时间3xiyfsfu1#
正常。encoder的训练要求要高很多,数据量要大、step要多很多,建议只做微调。
由于结构问题,encoder和synth是分开训练的
ftf50wuq2#
感谢回复,我再跑一段时间看看