vllm [新功能] 闪存解码++

axzmvihb  于 1个月前  发布在  其他
关注(0)|答案(5)|浏览(39)

最近,一篇名为"FlashDecoding++"的论文介绍了一种新的解码方法,可以提高解码效率。你是否有兴趣实现这个方法?

https://arxiv.org/pdf/2311.01282.pdf

提前感谢!

2cmtqfgy

2cmtqfgy1#

他们是否公布了他们的代码?

7z5jn7bk

7z5jn7bk2#

我认为他们会在之后发布他们的代码。

shstlldc

shstlldc3#

你好,我也对此非常感兴趣。关于这些关于flash #485 Dao-AILab/flash-attention#427(评论)的引用,它们应该已经在使用flash_attn_with_kvcache进行解码时得到了很好的处理。我想知道是否有计划让vllm支持这个功能。如果我想做出一些贡献,你能提供一些建议吗?

koaltpgm

koaltpgm5#

看起来是一个有趣的功能,值得评估并添加。

相关问题