vllm Awq量化的qwen-72b-chat输入长文本返回空字符串,

h22fl7wq  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(66)

在qwne-72b-chat的config.json文件中,它表示支持32768个tokens。我将awq-量化模型的max-model-len更改为16384,并尝试输入大约10000个tokens,但它返回了一个空字符串和警告消息Input prompt (10854 tokens) is too long and exceeds the capacity of block_manager

当我加载了由VLLM量化的原始gptq模型,并将max-model-len设置为16384时,它正常返回了10000个tokens的输入。然而,当我将max-model-len更改为32768时,它也返回了一个空字符串和相同的警告消息。请问您能帮我找出可能导致这个问题的原因吗?

我的硬件环境包括一个A800-80G GPU,我的软件环境包括CUDA 12.1, Python 3.10.13, VLLM 0.2.6, Transformers 4.35.2, 和 AutoAWQ 0.1.7

l2osamch

l2osamch1#

同样的问题也出现在qwen-72b-chat的非量化模型上,即使使用max_seq_len加载32768个tokens的模型也无法处理更长的提示(> 10000 tokens),并返回带有上述错误消息的空字符串,指出"超出了块管理器的容量"。
这不是其他较长上下文模型(如mixtral)的问题。

b1uwtaje

b1uwtaje2#

我也遇到了同样的问题,需要修改什么参数来解决吗?

相关问题