我尝试在一台4个GPU的机器上使用HF OPT-13b,配置为tensor-parallel: 4
。一个观察结果是所有GPU使用的内存量相同(约25G),这与其他用户报告一致。我还发现内存与tensor-parallel: 2
时使用的内存相同。所以我的问题是,模型是否像在这个帖子中所说的那样,在加载到CPU内存后被分割?我的理解是,如果模型在tensor-parallel: 4
时被分割,那么内存应该是第四个;如果在tensor-paralle: 2
时被分割,那么内存应该是第二个。
顺便说一下,当我增加Tensor并行数时,并没有真正找到延迟减少(延迟只有2或3毫秒的差异)。
2条答案
按热度按时间iecba09b1#
你好,@larry-fuy ,感谢使用MII!我假设你正在使用
nvidia-smi
检查内存 - 如果是这种情况,你可能看到每个GPU的总内存使用量包括可以释放的缓存内存。这是由于我们如何在GPU之间加载和拆分模型。我已经创建了一个PR,在拆分模型后清空torch缓存,现在报告的正确内存使用量。请尝试一下:#121至于延迟,你能分享一些更多细节来帮助我理解你的设置吗?
jjjwad0x2#
如何使用MII API获取延迟?