vllm [特性]:Assert错误:尚不支持RayGPU后端的推测解码,

yi0zb3m4  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(75)

🚀 功能、动机和宣传

大家好,
你们有没有解决Speculative decoding not yet supported for RayGPU backend.错误的方法或者当RayGPU后端支持推测性解码时的想法?
我使用以下命令运行vllm服务器:

python3 -u -m vllm.entrypoints.openai.api_server \
       --host 0.0.0.0 \
       --model casperhansen/mixtral-instruct-awq \
       --tensor-parallel-size 4 \
       --enforce-eager \
       --quantization awq \
       --gpu-memory-utilization 0.96 \
       --kv-cache-dtype fp8 \
       --speculative-model mistralai/Mistral-7B-Instruct-v0.2 \
       --num-speculative-tokens 3 \
       --use-v2-block-manager \
       --num-lookahead-slots 5

然而,我得到了AssertionError: Speculative decoding not yet supported for RayGPU backend.错误。

替代方案

  • 无响应*

额外的背景信息

  • 无响应*
cl25kdpy

cl25kdpy1#

我遇到了相同的问题

python -m vllm.entrypoints.openai.api_server --model /home/llama3_70B_awq --port 8000 --tensor-parallel-size 2 --gpu-memory-utilization 0.95 --kv-cache-dtype fp8 --max-num-seqs 32 --speculative-model /home/llama3_8B_gptq --num-speculative-tokens 3 --use-v2-block-manager
mnowg1ta

mnowg1ta2#

我也遇到了这个问题。

s6fujrry

s6fujrry6#

这个问题应该由 #4840 解决。

相关问题