unilm Unicode解码错误：'utf-8'编解码器无法在位置0解码字节0x80:无效的起始字节

omqzjyyz 于 2个月前发布在其他

关注(0)|答案(2)|浏览(51)

描述bug

我使用的模型是MiniLM:
问题出现在使用以下两种情况时：

官方示例脚本：(详细说明如下)
我自己的修改过的脚本：(详细说明如下)

一个清晰简洁的描述bug是什么。

重现bug

重现bug的行为的步骤：

从https://skylion007.github.io/OpenWebTextCorpus/下载数据集
将数据目录设置为解压后的目录
给出示例中给定的默认参数并运行

预期行为

模型应该在没有错误的情况下进行训练

来源：https://github.com/microsoft/unilm/issues/200

2条答案

按热度按时间

这似乎是在transformer包中引起的一般文本编码问题。

赞(0）回复(0）举报 2个月前

我正在面临相同的问题。有人找到解决方案了吗？

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前