unilm Unicode解码错误:'utf-8'编解码器无法在位置0解码字节0x80:无效的起始字节

omqzjyyz  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(51)

描述bug

我使用的模型是MiniLM:
问题出现在使用以下两种情况时:

  • 官方示例脚本:(详细说明如下)
  • 我自己的修改过的脚本:(详细说明如下)

一个清晰简洁的描述bug是什么。

重现bug

重现bug的行为的步骤:

  1. https://skylion007.github.io/OpenWebTextCorpus/下载数据集
  2. 将数据目录设置为解压后的目录
  3. 给出示例中给定的默认参数并运行

预期行为

模型应该在没有错误的情况下进行训练

w3nuxt5m

w3nuxt5m1#

这似乎是在transformer包中引起的一般文本编码问题。

csga3l58

csga3l582#

我正在面临相同的问题。有人找到解决方案了吗?

相关问题