我们有一个A100,可以支持2个请求,通过输出大约10个令牌/秒,仅使用kv缓存技术。您的配置使用4 * 100只能在vllm下实现0.6个请求/秒,似乎太低了。很难相信。
f2uvfpb91#
您能提供更多关于模型架构、大小以及您用于基准测试的方法的详细信息吗?以及一些关于环境的更多详细信息?
pkln4tw62#
请尝试使用最新的main分支。我已经进行了改进,使我们能够将RESTful API的性能与我们的Python API相匹配(参见#328)。
main
2条答案
按热度按时间f2uvfpb91#
我们有一个A100,可以支持2个请求,通过输出大约10个令牌/秒,仅使用kv缓存技术。您的配置使用4 * 100只能在vllm下实现0.6个请求/秒,似乎太低了。很难相信。
您能提供更多关于模型架构、大小以及您用于基准测试的方法的详细信息吗?以及一些关于环境的更多详细信息?
pkln4tw62#
请尝试使用最新的
main
分支。我已经进行了改进,使我们能够将RESTful API的性能与我们的Python API相匹配(参见#328)。