你好,
到目前为止,sentencepiece支持BPE、unigram、char和word。你计划支持字节级别的BPE(BBPE)吗?非常感谢!
f45qwnt81#
我们没有计划,但sentencepiece支持字节回退功能(在训练阶段为--byte_fallback=true),其中UNK字符被分割成utf8字节。我想我们几乎可以获得相同的效果。
--byte_fallback=true
txu3uszq2#
您好!您提到的BBPE是一种基于Transformer的编码器,用于将文本序列转换为固定长度的向量。Fairseq是一个开源的自然语言处理库,其中包含了BBPE的实现。您提供的链接是Fairseq中BBPE的实现代码。此外,Texar也提供了类似的功能,但是我没有找到它们之间的直接比较。
2条答案
按热度按时间f45qwnt81#
我们没有计划,但sentencepiece支持字节回退功能(在训练阶段为
--byte_fallback=true
),其中UNK字符被分割成utf8字节。我想我们几乎可以获得相同的效果。txu3uszq2#
您好!您提到的BBPE是一种基于Transformer的编码器,用于将文本序列转换为固定长度的向量。Fairseq是一个开源的自然语言处理库,其中包含了BBPE的实现。您提供的链接是Fairseq中BBPE的实现代码。此外,Texar也提供了类似的功能,但是我没有找到它们之间的直接比较。