vllm [Feature]: 4D Attention Mask

o0lyfsai  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(100)

🚀 功能、动机和宣传

我正在研究4D注意力掩码输入和LLM生成过程。Huggingface提供了一个用于4D注意力掩码的接口。LLM有计划吗?huggingface/transformers#27539

替代方案

  • 无响应*

额外的上下文

  • 无响应*
brtdzjyr

brtdzjyr1#

据我所知,自定义注意力掩码在优化的注意力实现(FlashInfer, FlashAttention)中不受支持,因此如果不降低性能,这是不可能实现的。

1l5u6lss

1l5u6lss2#

据我所知,自定义注意力掩码在优化的注意力实现(FlashInfer, FlashAttention)中不受支持,因此如果不降低性能,这是不可能实现的。
感谢你的回复,我可能需要自己实现这个功能。

相关问题