如何增加vllm调度程序提示限制?

zd287kbt  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(24)

你好,
我正在使用FastChat vicuna-7b-v1.5模型和vllm worker。
在与后端聊天时,我在scheduler.py中遇到了提示限制问题。

请问如何增加scheduler.py中的提示限制数量?

ttcibm8c

ttcibm8c1#

基于this,vicuna-7b-v1.5仅支持4K上下文长度。vllm检查最大模型长度(从模型配置中读取)并在此发出警告。

kgqe7b3p

kgqe7b3p2#

根据this,vicuna-7b-v1.5仅支持4K上下文长度。vllm在这里检查最大模型长度(从模型配置中读取),并抛出警告。
我将vicuna-7b-v1.5更改为vicuna-7b-v1.5-16k,并更改以下参数:
args: ["-m", "fastchat.serve.vllm_worker", "--model-path", "lmsys/vicuna-7b-v1.5-16k", "--worker-address", "http://fastchat-model-worker:21002", "--controller-address", "http://svc-fc-controller:21001", "--host", "0.0.0.0", "--port", "21002", "--gpu_memory_utilization", "0.998", "--max-model-len", "8192", "--max-num-batched-tokens", "8192"]
提示限制已经通过,但是我仍然遇到了另一个错误:“输入提示(4644个标记)太长,超过了block_manager的容量”。
日志如下:

请问如何解决这个问题?

wbrvyc0a

wbrvyc0a3#

如果 self.num_total_gpu_blocks - num_required_blocks < self.watermark_blocksTrue ,则会发生这种情况。
vllm/vllm/core/block_manager_v1.py
第258行至第260行
| | 如果 (self.num_total_gpu_blocks-num_required_blocks< |
| | self.watermark_blocks): |
| | returnAllocStatus.NEVER |

4ngedf3f

4ngedf3f4#

这段文本内容为:

这也似乎没有原因发生。我尝试了$x_{1e0f1}^{x}$,它没有将最大长度设置为2048,但仍然无法运行。

相关问题