bert Tokenization behavior with messed-up unicode characters

kjthegm6  于 7个月前  发布在  其他
关注(0)|答案(1)|浏览(104)

你好,

我在使用ICU进行Unicode规范化时遇到了问题,注意到在某些情况下,FullTokenizer类会失败:

错误信息:

输出:

似乎只有在处理非常混乱的代码点的情况下才会发生这种情况。
操作系统:Ubuntu 18.0.4.4 LTS
Python: 3.6.9

cngwdvgl

cngwdvgl1#

我不知道这是否是期望的行为,但你可能想看一下这个:sotlampr@30cf031

相关问题