bert 为什么为与范数相关的权重添加exclude_from_weight_decay?

8ehkhllq  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(56)

在bert/optimization.py的第65行,我们为norm相关的权重添加了exclude_from_weight_decay参数,请问是否有特殊原因?

wb1gzix0

wb1gzix01#

我也有同样的问题,有人能解释一下吗?

相关问题