在提问前搜索
- 我在 issues 中进行了搜索,但没有找到类似的问题。
操作系统信息
Linux
Python版本信息
=3.11
DB-GPT版本
主版
相关场景
- 聊天数据
- 聊天Excel
- 聊天数据库
- 聊天知识库
- 模型管理
- Jmeter 盘
- 插件
安装信息
- Installation From Source
- Docker Installation
- Docker Compose Installation
- Cluster Installation
- AutoDL图像
- 其他
设备信息
A100
模型信息
Qwen1.5-72B-chat-Int4
发生了什么事
LIMIT_MODEL_CONCURRENCY
这个参数在环境中有什么限制?参数设置不是很有用。我通过了官方的 vLLM 基准测试,并将它们分别设置为5和10500,结果是一样的。
、
、
。
你期望发生什么
请解释一下这个参数的意义。
如何重现
是的。
附加上下文
- 无响应*
你是否愿意提交PR?
- 是的,我愿意提交一个PR!
3条答案
按热度按时间v7pvogib1#
你好,@Storm0921。你是如何运行测试的,以及如何设置DB-GPT的?每个模型工作器可以使用"LIMIT_MODEL_CONCURRENCY"处理的并发请求数量。
nzk0hqpo2#
你好,@Storm0921。你是如何运行测试的,以及如何设置DB-GPT的?每个Model Worker可以使用"LIMIT_MODEL_CONCURRENCY"处理的并发请求数量。
你好,我使用proxyllm,自己启动了一个VLLM模型,然后通过代理访问。我发现limit_model_concurrency无法控制这种并发性。
watbbzwu3#
你好,fangyinc。通过代理访问大型模型时,是否无法通过参数limit_model_concurrency来控制并发?我想确认这一点。