在bert/optimization.py的第65行,我们为norm相关的权重添加了exclude_from_weight_decay参数,请问是否有特殊原因?
wb1gzix01#
我也有同样的问题,有人能解释一下吗?
46scxncf2#
也想知道这个
2条答案
按热度按时间wb1gzix01#
我也有同样的问题,有人能解释一下吗?
46scxncf2#
也想知道这个