如果我使用两个完全相同的模型来学习一个数据集,但是样本呈现的顺序不同,嵌入层会输出精确的嵌入吗?
kokeuurv1#
我认为你不会得到精确的嵌入。嵌入的参数取决于gradient decent如何选择它们,所以当样本批次顺序不同时,你可能会得到不同的值。此外,嵌入层有一个初始随机权重初始化,这也可能导致差异。然而,我期望在一个嵌入中接近的两个单词在另一个嵌入中也接近。
1条答案
按热度按时间kokeuurv1#
我认为你不会得到精确的嵌入。嵌入的参数取决于gradient decent如何选择它们,所以当样本批次顺序不同时,你可能会得到不同的值。此外,嵌入层有一个初始随机权重初始化,这也可能导致差异。
然而,我期望在一个嵌入中接近的两个单词在另一个嵌入中也接近。