Paddle 三层CNN, cifar10数据集，用momentum不收敛，用adam准确率比tf低3%~4%

332nm8kg 于 2021-11-30 发布在 Java

关注(0)|答案(4)|浏览(324)

2.0-alpha 版本的飞桨。
对比结果如下面两张图：

使用adam

使用momentum

BTW: mnist数据集，mlp网络用momentum可以收敛。

用来复现的notebook（可以在colab上，gpu运行）
https://gist.github.com/jzhang533/df107c3a91d896874b6437caf2907be0

来源：https://github.com/PaddlePaddle/Paddle/issues/24999

4条答案

按热度按时间

感谢使用Paddle。
请首先确认是否所有的超参数（学习率，初始化方法等等）都和benchmark的方法对齐？

赞(0）回复(0）举报 2021-11-30

肯定是对齐了的啊，我贴复现的代码了，你点开看了吗？

赞(0）回复(0）举报 2021-11-30

paddle 的momentum实现和tf 有区别，相同参数不收敛。Adam低3%的问题需要再看

赞(0）回复(0）举报 2021-11-30

更新一下：1.8.2版本的paddle，同样的任务和参数设置，用Momentum是可以收敛的。
复现地址：https://gist.github.com/jzhang533/cc74fbb9fa1f1604791accdd520f6def

2.0-alpha版本的paddle，做文本分类也有不收敛的问题。
复现地址：https://gist.github.com/jzhang533/78d7b9674a272e58cd56763b884f5ff6

赞(0）回复(0）举报 2021-11-30

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前