GPU多卡训练两层的语言模型用两张卡就可以正常训练,用四张卡会挂掉,并提示如下paddle.fluid.core_avx.EnforceNotMet: The number(2) of samples of current batch is less than the count(2) of devices(GPU), currently, it is not allowed. at [/paddle/paddle/fluid/framework/parallel_executor.cc:660]
如果把模型改成四层,四张卡就可以训练,不报错。
看样子是一张卡上一层模型
请问怎么改成卡数与批大小相关而不是与模型层数相关?
4条答案
按热度按时间70gysomp1#
batchsize目前是多少?
ne5o7dgx2#
Bathsize是4 16 20 都试过,都不行,且是相同的错误,只有改层数才有变化能跑通 发自我的vivo智能手机 tangwei12 notifications@github.com编写:…
batchsize目前是多少? — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
cgfeq70w3#
目前使用的是数据并行的模式, 就是卡数与批大小相关而不是与模型层数的。
你的样本数总体有多少?
t0ybt7op4#
大约4万多样本,模型是官方的paddleNLP下的model下的语言模型,基本没改