最近,一篇名为"FlashDecoding++"的论文介绍了一种新的解码方法,可以提高解码效率。你是否有兴趣实现这个方法?
https://arxiv.org/pdf/2311.01282.pdf
提前感谢!
2cmtqfgy1#
他们是否公布了他们的代码?
7z5jn7bk2#
我认为他们会在之后发布他们的代码。
shstlldc3#
你好,我也对此非常感兴趣。关于这些关于flash #485 Dao-AILab/flash-attention#427(评论)的引用,它们应该已经在使用flash_attn_with_kvcache进行解码时得到了很好的处理。我想知道是否有计划让vllm支持这个功能。如果我想做出一些贡献,你能提供一些建议吗?
yks3o0rb4#
mark
koaltpgm5#
看起来是一个有趣的功能,值得评估并添加。
5条答案
按热度按时间2cmtqfgy1#
他们是否公布了他们的代码?
7z5jn7bk2#
我认为他们会在之后发布他们的代码。
shstlldc3#
你好,我也对此非常感兴趣。关于这些关于flash #485 Dao-AILab/flash-attention#427(评论)的引用,它们应该已经在使用flash_attn_with_kvcache进行解码时得到了很好的处理。我想知道是否有计划让vllm支持这个功能。如果我想做出一些贡献,你能提供一些建议吗?
yks3o0rb4#
mark
koaltpgm5#
看起来是一个有趣的功能,值得评估并添加。