vllm [特性]:Assert错误：尚不支持RayGPU后端的推测解码,

yi0zb3m4 于 2个月前发布在其他

关注(0)|答案(6)|浏览(75)

🚀 功能、动机和宣传

大家好，
你们有没有解决Speculative decoding not yet supported for RayGPU backend.错误的方法或者当RayGPU后端支持推测性解码时的想法？
我使用以下命令运行vllm服务器：

python3 -u -m vllm.entrypoints.openai.api_server \
       --host 0.0.0.0 \
       --model casperhansen/mixtral-instruct-awq \
       --tensor-parallel-size 4 \
       --enforce-eager \
       --quantization awq \
       --gpu-memory-utilization 0.96 \
       --kv-cache-dtype fp8 \
       --speculative-model mistralai/Mistral-7B-Instruct-v0.2 \
       --num-speculative-tokens 3 \
       --use-v2-block-manager \
       --num-lookahead-slots 5

然而，我得到了AssertionError: Speculative decoding not yet supported for RayGPU backend.错误。

替代方案

无响应*

额外的背景信息

无响应*

vllm

来源：https://github.com/vllm-project/vllm/issues/4358

6条答案

按热度按时间

cl25kdpy1#

我遇到了相同的问题

python -m vllm.entrypoints.openai.api_server --model /home/llama3_70B_awq --port 8000 --tensor-parallel-size 2 --gpu-memory-utilization 0.95 --kv-cache-dtype fp8 --max-num-seqs 32 --speculative-model /home/llama3_8B_gptq --num-speculative-tokens 3 --use-v2-block-manager

赞(0）回复(0）举报 2个月前

mnowg1ta2#

我也遇到了这个问题。

赞(0）回复(0）举报 2个月前

fcy6dtqo3#

遇到这个问题

赞(0）回复(0）举报 2个月前

ax6ht2ek4#

遇到这个问题

赞(0）回复(0）举报 2个月前

vjrehmav5#

遇到这个问题