所需先决条件
- 我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
- 我已在 Issue Tracker 和 Discussions 中搜索,确保这个问题尚未被报告过。如果已经报告过了,请在那里加1或评论。
- 在提出问题之前,请先考虑在 Discussion 中提问。
问题
训练垂直领域的模型时,增量预训练的token数需要达到多少才能获得较好的效果?
检查清单
- 我已提供所有相关且必要的信息。
- 我已为这个问题选择了一个合适的标题。
3条答案
按热度按时间wz8daaqr1#
我想请教下大佬,在trian.py中只输入了tokenizer_path,没有给input_model_path,如何做到增量预训练的呀
jljoyd4f2#
我想请教下大佬,在trian.py中只输入了tokenizer_path,没有给input_model_path,如何做到增量预训练的呀
模型和分词器不都在同一个路径下吗
yrwegjxp3#
我在md文件中看到“下载 tokenizer 模型文件 tokenizer.model,放置在项目目录下。”,就以为是基于tokenizer.model对模型进行重训练。当时就想着模型有个默认路径或者在调用modeling_baichuan.py时下载模型,如模型和分词器默认在一个文件夹加载就明白了。谢谢解惑~
我想顺便请教下,预训练数据是哪种格式呢:
格式一:
格式二: