如何增加vllm调度程序提示限制？

zd287kbt 于 5个月前发布在其他

关注(0)|答案(4)|浏览(69)

你好，
我正在使用FastChat vicuna-7b-v1.5模型和vllm worker。
在与后端聊天时，我在scheduler.py中遇到了提示限制问题。

请问如何增加scheduler.py中的提示限制数量？

vllm

来源：https://github.com/vllm-project/vllm/issues/2737

4条答案

按热度按时间

ttcibm8c1#

基于this,vicuna-7b-v1.5仅支持4K上下文长度。vllm检查最大模型长度(从模型配置中读取)并在此发出警告。

赞(0）回复(0）举报 5个月前

kgqe7b3p2#

根据this,vicuna-7b-v1.5仅支持4K上下文长度。vllm在这里检查最大模型长度(从模型配置中读取),并抛出警告。
我将vicuna-7b-v1.5更改为vicuna-7b-v1.5-16k,并更改以下参数：
args: ["-m", "fastchat.serve.vllm_worker", "--model-path", "lmsys/vicuna-7b-v1.5-16k", "--worker-address", "http://fastchat-model-worker:21002", "--controller-address", "http://svc-fc-controller:21001", "--host", "0.0.0.0", "--port", "21002", "--gpu_memory_utilization", "0.998", "--max-model-len", "8192", "--max-num-batched-tokens", "8192"]
提示限制已经通过，但是我仍然遇到了另一个错误：“输入提示(4644个标记)太长，超过了block_manager的容量”。
日志如下：

请问如何解决这个问题？

赞(0）回复(0）举报 5个月前

wbrvyc0a3#

如果 self.num_total_gpu_blocks - num_required_blocks < self.watermark_blocks 是 True ,则会发生这种情况。
vllm/vllm/core/block_manager_v1.py
第258行至第260行
| | 如果 (self.num_total_gpu_blocks-num_required_blocks< |
| | self.watermark_blocks): |
| | returnAllocStatus.NEVER |

赞(0）回复(0）举报 5个月前

4ngedf3f4#

这段文本内容为：

这也似乎没有原因发生。我尝试了$x_{1e0f1}^{x}$,它没有将最大长度设置为2048,但仍然无法运行。

赞(0）回复(0）举报 5个月前