DeepSpeed-MII 0.6 req/s有点低,真的吗?

gcmastyq  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(50)

我们有一个A100,可以支持2个请求,通过输出大约10个令牌/秒,仅使用kv缓存技术。您的配置使用4 * 100只能在vllm下实现0.6个请求/秒,似乎太低了。很难相信。

f2uvfpb9

f2uvfpb91#

我们有一个A100,可以支持2个请求,通过输出大约10个令牌/秒,仅使用kv缓存技术。您的配置使用4 * 100只能在vllm下实现0.6个请求/秒,似乎太低了。很难相信。

您能提供更多关于模型架构、大小以及您用于基准测试的方法的详细信息吗?以及一些关于环境的更多详细信息?

pkln4tw6

pkln4tw62#

请尝试使用最新的main分支。我已经进行了改进,使我们能够将RESTful API的性能与我们的Python API相匹配(参见#328)。

相关问题