Baichuan-7B [Question] Baichuan模型中的Attention模块为什么在train的时候没有用到attention_mask?

nhaq1z21  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(104)

所需先决条件

问题

项目中提到“整体模型基于标准的 Transformer 结构,我们采用了和 LLaMA 一样的模型设计”,然而我发现在modeling_baichuan.py中的Attention,在train阶段没有用到attention_mask。但是llama中的Attention是用到了的。请问这是为什么呢?

检查清单

  • 我已在上方提供了所有相关且必要的信息。
  • 我已为这个问题选择了合适的标题。
j13ufse2

j13ufse21#

这个有点好奇,百川开源了不开源交流?

相关问题