你好,我正在使用FastChat vicuna-7b-v1.5模型和vllm worker。在与后端聊天时,我在scheduler.py中遇到了提示限制问题。
请问如何增加scheduler.py中的提示限制数量?
ttcibm8c1#
基于this,vicuna-7b-v1.5仅支持4K上下文长度。vllm检查最大模型长度(从模型配置中读取)并在此发出警告。
kgqe7b3p2#
根据this,vicuna-7b-v1.5仅支持4K上下文长度。vllm在这里检查最大模型长度(从模型配置中读取),并抛出警告。我将vicuna-7b-v1.5更改为vicuna-7b-v1.5-16k,并更改以下参数:args: ["-m", "fastchat.serve.vllm_worker", "--model-path", "lmsys/vicuna-7b-v1.5-16k", "--worker-address", "http://fastchat-model-worker:21002", "--controller-address", "http://svc-fc-controller:21001", "--host", "0.0.0.0", "--port", "21002", "--gpu_memory_utilization", "0.998", "--max-model-len", "8192", "--max-num-batched-tokens", "8192"]提示限制已经通过,但是我仍然遇到了另一个错误:“输入提示(4644个标记)太长,超过了block_manager的容量”。日志如下:
请问如何解决这个问题?
wbrvyc0a3#
如果 self.num_total_gpu_blocks - num_required_blocks < self.watermark_blocks 是 True ,则会发生这种情况。vllm/vllm/core/block_manager_v1.py第258行至第260行| | 如果 (self.num_total_gpu_blocks-num_required_blocks< || | self.watermark_blocks): || | returnAllocStatus.NEVER |
self.num_total_gpu_blocks - num_required_blocks < self.watermark_blocks
True
4ngedf3f4#
这段文本内容为:
这也似乎没有原因发生。我尝试了$x_{1e0f1}^{x}$,它没有将最大长度设置为2048,但仍然无法运行。
4条答案
按热度按时间ttcibm8c1#
基于this,vicuna-7b-v1.5仅支持4K上下文长度。vllm检查最大模型长度(从模型配置中读取)并在此发出警告。
kgqe7b3p2#
根据this,vicuna-7b-v1.5仅支持4K上下文长度。vllm在这里检查最大模型长度(从模型配置中读取),并抛出警告。
我将vicuna-7b-v1.5更改为vicuna-7b-v1.5-16k,并更改以下参数:
args: ["-m", "fastchat.serve.vllm_worker", "--model-path", "lmsys/vicuna-7b-v1.5-16k", "--worker-address", "http://fastchat-model-worker:21002", "--controller-address", "http://svc-fc-controller:21001", "--host", "0.0.0.0", "--port", "21002", "--gpu_memory_utilization", "0.998", "--max-model-len", "8192", "--max-num-batched-tokens", "8192"]
提示限制已经通过,但是我仍然遇到了另一个错误:“输入提示(4644个标记)太长,超过了block_manager的容量”。
日志如下:
请问如何解决这个问题?
wbrvyc0a3#
如果
self.num_total_gpu_blocks - num_required_blocks < self.watermark_blocks
是True
,则会发生这种情况。vllm/vllm/core/block_manager_v1.py
第258行至第260行
| | 如果 (self.num_total_gpu_blocks-num_required_blocks< |
| | self.watermark_blocks): |
| | returnAllocStatus.NEVER |
4ngedf3f4#
这段文本内容为:
这也似乎没有原因发生。我尝试了$x_{1e0f1}^{x}$,它没有将最大长度设置为2048,但仍然无法运行。