unilm 这个模型只适用于英文文本吗？长文本会被截断至最多512个标记？[E5:通过弱监督对比学习预训练的文本嵌入]

js4nwp54 于 4个月前发布在其他

关注(0)|答案(3)|浏览(52)

你好，
这个问题是关于e5: Text Embeddings by Weakly-Supervised Contrastive Pre-training的。梁旺、南洋、黄小龙、焦斌星、杨林军、江大鑫、Rangan Majumder、Furu Wei、arXiv 2022。我在huggingface上看到了这些信息。限制：这个模型仅适用于英文文本。长文本将被截断至最多512个标记。
我该如何将其适应中文文本？
用中文文本训练模型？如果是这样的话，硬件配置可以做到吗？
谢谢。
期待您的回复。

来源：https://github.com/microsoft/unilm/issues/1069

3条答案

按热度按时间

是的，目前它只支持英文。
我们将在接下来的一个月内发布多语言版本的文本嵌入(尽管没有关于时间线的保证),请继续关注！
谢谢，
梁

赞(0）回复(0）举报 4个月前

所以期待多语言E5的发布！

赞(0）回复(0）举报 4个月前

你支持中文吗？

赞(0）回复(0）举报 4个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前