请问paddle-gpu的训练过程,是所有迭代过程间的并行,还是一次迭代过程内部的并行?
p8ekf7hl1#
看不太懂问题。
目前是一个 batch, all reduce 的方式更新的
s5a0g9ez2#
感谢解答!paddle gpu版本,训练阶段在gpu并行时,是batch间并行(多个batch同时计算loss、梯度、更新等),还是只是一个batch内部运算时并行(loss、梯度等运算本身并行)?
2条答案
按热度按时间p8ekf7hl1#
看不太懂问题。
目前是一个 batch, all reduce 的方式更新的
s5a0g9ez2#
感谢解答!
paddle gpu版本,训练阶段在gpu并行时,是batch间并行(多个batch同时计算loss、梯度、更新等),还是只是一个batch内部运算时并行(loss、梯度等运算本身并行)?