请使用最新的主要分支和测试模型llamav2-7b。当我使用tp=4进行单个句子推理测试时,耗时267.98秒,但当tp=1时,测试单个句子推理仅需7秒。这个结果非常奇怪。请您帮忙查看一下?
此外,对于并发测试,我修改了DeepSpeed-MII/mii/backend/client.py文件的第73行。如果我的修改有问题,能否提供一个支持并发客户端测试的示例?非常感谢您!
请使用最新的主要分支和测试模型llamav2-7b。当我使用tp=4进行单个句子推理测试时,耗时267.98秒,但当tp=1时,测试单个句子推理仅需7秒。这个结果非常奇怪。请您帮忙查看一下?
此外,对于并发测试,我修改了DeepSpeed-MII/mii/backend/client.py文件的第73行。如果我的修改有问题,能否提供一个支持并发客户端测试的示例?非常感谢您!
2条答案
按热度按时间2wnc66cl1#
你好,easonfzw,TP=4的时间确实看起来很糟糕!我刚刚在最新的
main
分支上测试了一下,以下是我在2xA6000设置上看到的结果:输出:
你能分享一下你的设置吗?你使用的是哪些GPU,你安装了哪个版本的CUDA,你安装了哪个版本的pytorch?
我不确定你所做的修改。我需要深入了解一下代码,以了解这是否会对性能产生任何负面影响。对于多客户端测试,我们会生成多个进程。例如,你可以这样做:
你是想在单个进程中进行多个客户端的基准测试吗?
gudnpqoy2#
首先,感谢您的回复。
非常奇怪的是,我使用了您上面的例子(tp=1和tp=2)进行测试。tp=2耗费了很多时间。期待您的回复 :)
**TP1时间:8.999823808670044秒
TP2时间:337.3766210079193秒**
环境信息:
H100(80GB) 1*gpu
NVIDIA-SMI 525.147.05驱动版本:525.147.05 CUDA版本:12.2
Python 3.10.12(主线程,6月11日2023年,05:26:28) [GCC 11.4.0] 在linux上运行
torch 2.1.0a0+32f93b1
transformers 4.34.0
flash-attn 2.3.2
**TP1时间:15.307891845703125秒
TP2时间:55.08188509941101秒**
环境信息:
A100(40GB) 1*gpu
NVIDIA-SMI 515.105.01驱动版本:515.105.01 CUDA版本:12.1
Python 3.10.6(主线程,3月10日2023年,10:55:28) [GCC 11.3.0] 在linux上运行
torch 2.0.0
transformers 4.34.0
flash-attn 2.3.2
DeepSpeed:提交ID为4388a605f854db91302c4f89053ee861eb31bacd
DeepSpeed-Kernels:提交ID为b62777e8ba87d82689b40625067f58a683bf7788
DeepSpeed-MII:提交ID为ddbc6fc
此外,当我使用您提供的子进程示例代码时,会报告一个错误: