DeepSpeed-MII Performance with vllm

1rhkuytd 于 2个月前发布在其他

关注(0)|答案(1)|浏览(45)

你好，我在A100设备上为Yi-6B模型测试了mii和vllm,似乎vllm(5.12s/query)比mii(6.08s/query)更快。我需要设置什么配置吗？
以下是我的设置：

输入长度 = 1536
输出长度 = 512
批量大小 = 1
测试集大小：100
预热阶段不计入时间成本统计。

模型加载器如下：

model_path = "/mnt/bn/multimodel/models/official/Yi-6B-Chat/"
    pipe = mii.pipeline(model_path, torch_dist_port=12345)

    resp = pipe([prompt], min_new_tokens=512, max_new_tokens=512)

DeepSpeed-MII

来源：https://github.com/microsoft/DeepSpeed-MII/issues/467

1条答案

按热度按时间

1tuwyuhd1#

@littletomatodonkey - mii.pipeline仅用于快速启动，因此性能可能不是最优的。
为了获得更好的性能，请尝试使用mii.serve API创建持久部署。

赞(0）回复(0）举报 2个月前

我来回答

DeepSpeed-MII Performance with vllm

1条答案

相关问题

热门标签

最新问答