gpt-2 对vocab.bpe和encoder.json感到困惑

dhxwm5r4  于 5个月前  发布在  其他
关注(0)|答案(2)|浏览(172)

我正在阅读源代码。我有两个关于词汇和编码器的问题。请帮助我。提前谢谢你。
1.在词汇方面,我以第二行(t)为例,但是我发现“”在很多行(比如第三行)都出现了,那么为什么不是一一对应呢?

  1. encoder.json中的项目是BPE的子token吗?我以“\u0120regress”为例,为什么“\u0120”会出现在这里?
raogr8fs

raogr8fs1#

@weiguowilliam见@80.

ifmq2ha2

ifmq2ha22#

如何为不同语言生成自定义vocab.bpe和encoder.json并使其工作?

相关问题