所需先决条件
- 我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
- 我已在 Issue Tracker 和 Discussions 中搜索,确保此问题尚未报告。如果已经报告,请在那里加1或评论。
- 在提出问题之前,请先考虑在 Discussion 中咨询。
问题
- 关于相关数据工作,频率和质量是数据处理环节重点考虑的两个维度。我们基于启发式规则和质量模型打分,对原始数据集进行篇章和句子粒度的过滤。在全量数据上,利用局部敏感哈希方法,对篇章和句子粒度做滤重。
比较好奇这里说的相关数据工作是哪些?关于质量模型是用什么训练的?
检查清单
- 我已在上方提供了所有相关和必要的信息。
- 我已为这个问题选择了一个合适的标题。
1条答案
按热度按时间nhhxz33t1#
我也有同样问题,老哥看到相关工作了吗