来自新的Flash Infer发布 https://github.com/flashinfer-ai/flashinfer/releases/tag/v0.1.4cc @comaniac
后续: #7208, #7185
kupeojn61#
实际上,@comaniac,我注意到有明确的Assert禁止使用flash infer内核进行分块预填充vllm/vllm/attention/backends/flashinfer.py第195行| | # 目前不支持分块预填充 |如在:flashinfer-ai/flashinfer#392(评论)中指出的那样我的理解是,这是因为默认情况下,vLLM通过两个单独的内核调用运行预填充和解码(就像flash-attention的情况一样,参见:#6052),这也适用于flash-infer吗?也许第一步是将flash infer内核统一为使用单个内核,类似于#6052,或者至少澄清在什么情况下可以运行flash-infer内核进行分块预填充,因为根据@yzh119在flashinfer-ai/flashinfer#392中的评论,这应该已经得到了flash-infer的支持。
xkftehaa2#
Anw, please assign it to me, I will investigate further
ppcbkaq53#
我们已经在处理这个cc @Yard1了。
3条答案
按热度按时间kupeojn61#
实际上,@comaniac,我注意到有明确的Assert禁止使用flash infer内核进行分块预填充
vllm/vllm/attention/backends/flashinfer.py
第195行
| | # 目前不支持分块预填充 |
如在:flashinfer-ai/flashinfer#392(评论)中指出的那样
我的理解是,这是因为默认情况下,vLLM通过两个单独的内核调用运行预填充和解码(就像flash-attention的情况一样,参见:#6052),这也适用于flash-infer吗?
也许第一步是将flash infer内核统一为使用单个内核,类似于#6052,或者至少澄清在什么情况下可以运行flash-infer内核进行分块预填充,因为根据@yzh119在flashinfer-ai/flashinfer#392中的评论,这应该已经得到了flash-infer的支持。
xkftehaa2#
Anw, please assign it to me, I will investigate further
ppcbkaq53#
我们已经在处理这个cc @Yard1了。