Linly 关于平行语料的预处理

pobjuy32  于 6个月前  发布在  其他
关注(0)|答案(3)|浏览(149)

你好,请问平行语料的预处理有做特殊格式拼接吗?比如中英用特殊分隔,拼接成一行之类的?

pftdvrlh

pftdvrlh1#

同问,预训练的时候需要加prompt吗,比如please translate English to Chinese?

uxhixvfz

uxhixvfz2#

没有prompt...

发件人: mynewstart ***@***.***> 发送时间: 2023年8月18日,星期五,上午11:42:19 AM 收件人: CVI-SZU/Linly ***@***.***> 抄送: Subscribed ***@***.***> 主题: 回复: [CVI-SZU/Linly] 关于平行语料的预处理 (Issue #93) 同样的问题,预训练时需要加prompt吗?比如"please translate English to Chinese",或者直接回复此邮件,在GitHub上查看,或者取消订阅< https://github.com/notifications/unsubscribe-auth/AE3SPVZTVABTBL342VKGSIDXV3QBXANCNFSM6AAAAAAYT36W6E >。您收到此邮件是因为您订阅了这个线程。消息ID: ***@***.***>

guz6ccqo

guz6ccqo3#

请问平行语料的训练loss是和其他语料一样,每个next token的loss和还是说只是计算英文/中文 token部分的?

相关问题