vllm [特性]:集成flash-infer FP8 KV缓存分块预填充(追加注意力)

mtb9vblg  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(49)

🚀 功能、动机和宣传

来自新的Flash Infer发布 https://github.com/flashinfer-ai/flashinfer/releases/tag/v0.1.4
cc @comaniac

其他上下文

后续: #7208, #7185

kupeojn6

kupeojn61#

实际上,@comaniac,我注意到有明确的Assert禁止使用flash infer内核进行分块预填充
vllm/vllm/attention/backends/flashinfer.py
第195行
| | # 目前不支持分块预填充 |
如在:flashinfer-ai/flashinfer#392(评论)中指出的那样
我的理解是,这是因为默认情况下,vLLM通过两个单独的内核调用运行预填充和解码(就像flash-attention的情况一样,参见:#6052),这也适用于flash-infer吗?
也许第一步是将flash infer内核统一为使用单个内核,类似于#6052,或者至少澄清在什么情况下可以运行flash-infer内核进行分块预填充,因为根据@yzh119在flashinfer-ai/flashinfer#392中的评论,这应该已经得到了flash-infer的支持。

xkftehaa

xkftehaa2#

Anw, please assign it to me, I will investigate further

ppcbkaq5

ppcbkaq53#

我们已经在处理这个cc @Yard1了。

相关问题