Baichuan-7B [Question] 训练垂直领域的模型,增量预训练的token数需要达到多少才能有比较好的效果?

jmo0nnb3  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(41)

所需先决条件

问题

训练垂直领域的模型时,增量预训练的token数需要达到多少才能获得较好的效果?

检查清单

  • 我已提供所有相关且必要的信息。
  • 我已为这个问题选择了一个合适的标题。
wz8daaqr

wz8daaqr1#

我想请教下大佬,在trian.py中只输入了tokenizer_path,没有给input_model_path,如何做到增量预训练的呀

jljoyd4f

jljoyd4f2#

我想请教下大佬,在trian.py中只输入了tokenizer_path,没有给input_model_path,如何做到增量预训练的呀
模型和分词器不都在同一个路径下吗

yrwegjxp

yrwegjxp3#

我在md文件中看到“下载 tokenizer 模型文件 tokenizer.model,放置在项目目录下。”,就以为是基于tokenizer.model对模型进行重训练。当时就想着模型有个默认路径或者在调用modeling_baichuan.py时下载模型,如模型和分词器默认在一个文件夹加载就明白了。谢谢解惑~

我想顺便请教下,预训练数据是哪种格式呢:

格式一:

"""
doc1
doc2
doc3
...
"""

格式二:

{"text": "doc1"}
{"text": "doc2"}
{"text": "doc3"}
...

相关问题