Baichuan-7B [Question] Baichuan模型中的Attention模块为什么在train的时候没有用到attention_mask？

nhaq1z21 于 2个月前发布在其他

关注(0)|答案(1)|浏览(104)

所需先决条件

我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
我已在 Issue Tracker 和 Discussions 中搜索，确保这个问题尚未被报告过。如果已经报告过了，请在那里加1或留言。
在提出问题之前，请先考虑在 Discussion 中提问。

问题

项目中提到“整体模型基于标准的 Transformer 结构，我们采用了和 LLaMA 一样的模型设计”，然而我发现在modeling_baichuan.py中的Attention,在train阶段没有用到attention_mask。但是llama中的Attention是用到了的。请问这是为什么呢？