感谢出色的工作!我想知道在使用vLLM时,我们是否可以获得注意力分数?
vybvopom1#
目前尚不支持此功能,但这是一个很好的功能请求!
wlp8pajw2#
非常感谢您的迅速回复🥳!我现在正在尝试使用环注意力来支持vLLM的1M上下文长度!为了实现这一点,我们需要:
causal=False
n
n-1
xkrw2x1b3#
你好!你是否愿意接受一个PR,实现输出注意力分数(给定一个额外的SamplingParameter)?如果可以的话,我很乐意接手这个任务!
3条答案
按热度按时间vybvopom1#
目前尚不支持此功能,但这是一个很好的功能请求!
wlp8pajw2#
非常感谢您的迅速回复🥳!
我现在正在尝试使用环注意力来支持vLLM的1M上下文长度!
为了实现这一点,我们需要:
causal=False
。例如,来自块n
的查询和来自前一个块n-1
的键和值。再次感谢您的重要工作。随着Gemini支持1.5M上下文,我相信对这两个功能的需求将越来越大。
xkrw2x1b3#
你好!你是否愿意接受一个PR,实现输出注意力分数(给定一个额外的SamplingParameter)?如果可以的话,我很乐意接手这个任务!