[功能请求]在vLLM中输出注意力分数

nwsw7zdq  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(35)

感谢出色的工作!
我想知道在使用vLLM时,我们是否可以获得注意力分数?

vybvopom

vybvopom1#

目前尚不支持此功能,但这是一个很好的功能请求!

wlp8pajw

wlp8pajw2#

非常感谢您的迅速回复🥳!
我现在正在尝试使用环注意力来支持vLLM的1M上下文长度!
为了实现这一点,我们需要:

  1. 注意力分数,特别是FlashAttention中的softmax_lse(softmax_lse)。
  2. 当q(查询)来自与k(键)和v(值)不同的块时,causal=False。例如,来自块n的查询和来自前一个块n-1的键和值。
    再次感谢您的重要工作。随着Gemini支持1.5M上下文,我相信对这两个功能的需求将越来越大。
xkrw2x1b

xkrw2x1b3#

你好!你是否愿意接受一个PR,实现输出注意力分数(给定一个额外的SamplingParameter)?如果可以的话,我很乐意接手这个任务!

相关问题