vllm Awq量化的qwen-72b-chat输入长文本返回空字符串,

h22fl7wq 于 2个月前发布在其他

关注(0)|答案(2)|浏览(66)

在qwne-72b-chat的config.json文件中，它表示支持32768个tokens。我将awq-量化模型的max-model-len更改为16384,并尝试输入大约10000个tokens,但它返回了一个空字符串和警告消息Input prompt (10854 tokens) is too long and exceeds the capacity of block_manager 。

当我加载了由VLLM量化的原始gptq模型，并将max-model-len设置为16384时，它正常返回了10000个tokens的输入。然而，当我将max-model-len更改为32768时，它也返回了一个空字符串和相同的警告消息。请问您能帮我找出可能导致这个问题的原因吗？

我的硬件环境包括一个A800-80G GPU,我的软件环境包括CUDA 12.1, Python 3.10.13, VLLM 0.2.6, Transformers 4.35.2, 和 AutoAWQ 0.1.7。

vllm

来源：https://github.com/vllm-project/vllm/issues/2275