使用AIM为单个分布式训练任务创建多个运行 ```markdown 使用AIM(自动重要性Map)为单个分布式训练任务创建多个运行, ```

wvmv3b1j  于 25天前  发布在  其他
关注(0)|答案(1)|浏览(25)

❓问题

在使用AIM进行分布式训练任务(例如8个GPU)时,我注意到每个GPU生成一个具有其自身超参数和指标的单独运行。因此,对于一个使用8个GPU的单个分布式训练任务,总共创建了8个运行。
然而,我的期望是在整个分布式训练任务中只有一个运行,而不管使用的GPU数量是多少。这是预期的行为吗,还是有办法将这些运行整合成整个任务的一个单一运行?
对于单个任务有多个运行使得跟踪和分析整体性能和指标变得困难。更方便直观的做法是有一个单一的运行,它汇总了参与分布式训练过程的所有GPU的数据。
请告知我这种行为是否是有意为之,或者是否有配置选项或解决方法可以实现使用AIM进行分布式训练任务的单一运行。

gywdnpxw

gywdnpxw1#

@zhiyxu 这个有道理,你有没有机会分享一下你的设置,如果可能的话,还有脚本和其他方法来重现这个问题?
我们正在努力解决这些问题。

相关问题