Baichuan-7B [Question] 训练垂直领域的模型，增量预训练的token数需要达到多少才能有比较好的效果？

jmo0nnb3 于 7个月前发布在其他

关注(0)|答案(3)|浏览(124)

所需先决条件

我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
我已在 Issue Tracker 和 Discussions 中搜索，确保这个问题尚未被报告过。如果已经报告过了，请在那里加1或评论。
在提出问题之前，请先考虑在 Discussion 中提问。

问题

训练垂直领域的模型时，增量预训练的token数需要达到多少才能获得较好的效果？

检查清单

我已提供所有相关且必要的信息。
我已为这个问题选择了一个合适的标题。

来源：https://github.com/baichuan-inc/Baichuan-7B/issues/112

3条答案

按热度按时间

我想请教下大佬，在trian.py中只输入了tokenizer_path，没有给input_model_path，如何做到增量预训练的呀

赞(0）回复(0）举报 7个月前

我想请教下大佬，在trian.py中只输入了tokenizer_path，没有给input_model_path，如何做到增量预训练的呀
模型和分词器不都在同一个路径下吗

赞(0）回复(0）举报 7个月前

我在md文件中看到“下载 tokenizer 模型文件 tokenizer.model,放置在项目目录下。”，就以为是基于tokenizer.model对模型进行重训练。当时就想着模型有个默认路径或者在调用modeling_baichuan.py时下载模型，如模型和分词器默认在一个文件夹加载就明白了。谢谢解惑~

我想顺便请教下，预训练数据是哪种格式呢：

格式一：

"""
doc1
doc2
doc3
...
"""

格式二：

{"text": "doc1"}
{"text": "doc2"}
{"text": "doc3"}
...

赞(0）回复(0）举报 7个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 6个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 6个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 6个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 6个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 6个月前