DeepSpeed-MII 模型在OPT TP模式下是否进行拆分?

whhtz7ly  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(101)

我尝试在一台4个GPU的机器上使用HF OPT-13b,配置为tensor-parallel: 4。一个观察结果是所有GPU使用的内存量相同(约25G),这与其他用户报告一致。我还发现内存与tensor-parallel: 2时使用的内存相同。所以我的问题是,模型是否像在这个帖子中所说的那样,在加载到CPU内存后被分割?我的理解是,如果模型在tensor-parallel: 4时被分割,那么内存应该是第四个;如果在tensor-paralle: 2时被分割,那么内存应该是第二个。
顺便说一下,当我增加Tensor并行数时,并没有真正找到延迟减少(延迟只有2或3毫秒的差异)。

iecba09b

iecba09b1#

你好,@larry-fuy ,感谢使用MII!我假设你正在使用nvidia-smi检查内存 - 如果是这种情况,你可能看到每个GPU的总内存使用量包括可以释放的缓存内存。这是由于我们如何在GPU之间加载和拆分模型。我已经创建了一个PR,在拆分模型后清空torch缓存,现在报告的正确内存使用量。请尝试一下:#121

至于延迟,你能分享一些更多细节来帮助我理解你的设置吗?

  • 你正在运行哪些GPU以及有多少个?
  • 你是如何测量延迟的?
  • 你有哪些确切的测量结果?
jjjwad0x

jjjwad0x2#

如何使用MII API获取延迟?

相关问题