我开始使用Tensorflow研究NLP,但很难理解嵌入层上的参数分布是如何发生的。这是我的基本NLP模型总结。
的数据我无法理解嵌入层如何具有1.28M参数,因为将15个令牌连接到128个值的1个向量不应该那么多。还是我看错了?
mgdq6dx11#
简短回答:嵌入层:嵌入层中的参数数量由vocabulary_size * embedding_dimension给出。如果你的词汇量为10,000个单词==> 10,000 * 128 = 1,280,000致密层:密集层中的参数数量由(input_dimension + 1) * units给出,其中+1表示每个单元的 bias 项。
vocabulary_size * embedding_dimension
(input_dimension + 1) * units
V * 128 + 387 = 1,280,129
我希望这能澄清这一点。如果你想要更多……
1条答案
按热度按时间mgdq6dx11#
简短回答:
嵌入层:嵌入层中的参数数量由
vocabulary_size * embedding_dimension
给出。如果你的词汇量为10,000个单词==> 10,000 * 128 = 1,280,000致密层:密集层中的参数数量由
(input_dimension + 1) * units
给出,其中+1表示每个单元的 bias 项。V * 128 + 387 = 1,280,129
*我希望这能澄清这一点。如果你想要更多……