DeepSpeed-MII 模型在OPT TP模式下是否进行拆分？

whhtz7ly 于 6个月前发布在其他

关注(0)|答案(2)|浏览(178)

我尝试在一台4个GPU的机器上使用HF OPT-13b,配置为tensor-parallel: 4。一个观察结果是所有GPU使用的内存量相同(约25G),这与其他用户报告一致。我还发现内存与tensor-parallel: 2时使用的内存相同。所以我的问题是，模型是否像在这个帖子中所说的那样，在加载到CPU内存后被分割？我的理解是，如果模型在tensor-parallel: 4时被分割，那么内存应该是第四个；如果在tensor-paralle: 2时被分割，那么内存应该是第二个。
顺便说一下，当我增加Tensor并行数时，并没有真正找到延迟减少(延迟只有2或3毫秒的差异)。

DeepSpeed-MII

来源：https://github.com/microsoft/DeepSpeed-MII/issues/120

2条答案

按热度按时间

iecba09b1#

你好，@larry-fuy ,感谢使用MII!我假设你正在使用nvidia-smi检查内存 - 如果是这种情况，你可能看到每个GPU的总内存使用量包括可以释放的缓存内存。这是由于我们如何在GPU之间加载和拆分模型。我已经创建了一个PR,在拆分模型后清空torch缓存，现在报告的正确内存使用量。请尝试一下：#121

至于延迟，你能分享一些更多细节来帮助我理解你的设置吗？