训练345 M模型需要什么GPU配置
ivqmmu1c1#
不工作在6 GB的GPU。需要12 GB以上的CPU,所以我猜16~ 24 GB的泰坦?
tct7dpnv2#
@MrKrzYch00你从哪里得到这个关于最小GPU内存大小的信息?我在一个双GTX 1080 i上训练时得到一个OOM错误,每个GTX 1080 i都有8 GB GPU内存:#173在迁移到16 GBi的V-100之前,我想了解一下是否可以将数据分布在多个GPU上。
yv5phkfx3#
我想我在某个地方读到过tensorflow在所有GPU上需要相同数量的内存,尽管我可能错了。在CPU上运行它,并注意任务管理器中的使用情况。我认为GPU应该需要相同的内存(分配开销)。
ktecyv1j4#
@Yuanchenbo@MrKrzYch00@loretoparisi你们找到答案了吗?我试图在v100 16GB上微调gpt2最小(124 M),但如果我使用batch_size超过2,它就会消失。我使用pytorch_transformers实现。
brc7rcf05#
我们已经发现,对于384 M型号的V-100 16 GBi,批量大小= 8时,它有效。
5条答案
按热度按时间ivqmmu1c1#
不工作在6 GB的GPU。需要12 GB以上的CPU,所以我猜16~ 24 GB的泰坦?
tct7dpnv2#
@MrKrzYch00你从哪里得到这个关于最小GPU内存大小的信息?我在一个双GTX 1080 i上训练时得到一个OOM错误,每个GTX 1080 i都有8 GB GPU内存:
#173
在迁移到16 GBi的V-100之前,我想了解一下是否可以将数据分布在多个GPU上。
yv5phkfx3#
我想我在某个地方读到过tensorflow在所有GPU上需要相同数量的内存,尽管我可能错了。在CPU上运行它,并注意任务管理器中的使用情况。我认为GPU应该需要相同的内存(分配开销)。
ktecyv1j4#
@Yuanchenbo@MrKrzYch00@loretoparisi你们找到答案了吗?我试图在v100 16GB上微调gpt2最小(124 M),但如果我使用batch_size超过2,它就会消失。我使用pytorch_transformers实现。
brc7rcf05#
我们已经发现,对于384 M型号的V-100 16 GBi,批量大小= 8时,它有效。