🚀 功能、动机和宣传
大家好,
你们有没有解决Speculative decoding not yet supported for RayGPU backend.
错误的方法或者当RayGPU后端支持推测性解码时的想法?
我使用以下命令运行vllm服务器:
python3 -u -m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 \
--model casperhansen/mixtral-instruct-awq \
--tensor-parallel-size 4 \
--enforce-eager \
--quantization awq \
--gpu-memory-utilization 0.96 \
--kv-cache-dtype fp8 \
--speculative-model mistralai/Mistral-7B-Instruct-v0.2 \
--num-speculative-tokens 3 \
--use-v2-block-manager \
--num-lookahead-slots 5
然而,我得到了AssertionError: Speculative decoding not yet supported for RayGPU backend.
错误。
替代方案
- 无响应*
额外的背景信息
- 无响应*
6条答案
按热度按时间cl25kdpy1#
我遇到了相同的问题
mnowg1ta2#
我也遇到了这个问题。
fcy6dtqo3#
遇到这个问题
ax6ht2ek4#
遇到这个问题
vjrehmav5#
遇到这个问题
s6fujrry6#
这个问题应该由 #4840 解决。