我正在研究4D注意力掩码输入和LLM生成过程。Huggingface提供了一个用于4D注意力掩码的接口。LLM有计划吗?huggingface/transformers#27539
brtdzjyr1#
据我所知,自定义注意力掩码在优化的注意力实现(FlashInfer, FlashAttention)中不受支持,因此如果不降低性能,这是不可能实现的。
1l5u6lss2#
据我所知,自定义注意力掩码在优化的注意力实现(FlashInfer, FlashAttention)中不受支持,因此如果不降低性能,这是不可能实现的。感谢你的回复,我可能需要自己实现这个功能。
2条答案
按热度按时间brtdzjyr1#
据我所知,自定义注意力掩码在优化的注意力实现(FlashInfer, FlashAttention)中不受支持,因此如果不降低性能,这是不可能实现的。
1l5u6lss2#
据我所知,自定义注意力掩码在优化的注意力实现(FlashInfer, FlashAttention)中不受支持,因此如果不降低性能,这是不可能实现的。
感谢你的回复,我可能需要自己实现这个功能。