sentencepiece 计划支持BBPE

eivnm1vs  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(44)

你好,

到目前为止,sentencepiece支持BPE、unigram、char和word。你计划支持字节级别的BPE(BBPE)吗?非常感谢!

f45qwnt8

f45qwnt81#

我们没有计划,但sentencepiece支持字节回退功能(在训练阶段为--byte_fallback=true),其中UNK字符被分割成utf8字节。我想我们几乎可以获得相同的效果。

txu3uszq

txu3uszq2#

您好!您提到的BBPE是一种基于Transformer的编码器,用于将文本序列转换为固定长度的向量。Fairseq是一个开源的自然语言处理库,其中包含了BBPE的实现。您提供的链接是Fairseq中BBPE的实现代码。此外,Texar也提供了类似的功能,但是我没有找到它们之间的直接比较。

相关问题