vllm 当prompt_logprobs + enable_prefix_caching时出现错误,

xsuvu9jc  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(44)

我认为问题出在前112个(16*7个块)的logits被缓存了,只有最后5个输入令牌被计算。为了返回提示的logprobs,采样器正在寻找所有117个logits,但只返回最近计算的5个logits。似乎需要返回缓存的112个logits。我不知道如何实现...

相关问题