unilm 这个模型只适用于英文文本吗?长文本会被截断至最多512个标记?[E5:通过弱监督对比学习预训练的文本嵌入]

js4nwp54  于 4个月前  发布在  其他
关注(0)|答案(3)|浏览(52)

你好,
这个问题是关于e5: Text Embeddings by Weakly-Supervised Contrastive Pre-training的。梁旺、南洋、黄小龙、焦斌星、杨林军、江大鑫、Rangan Majumder、Furu Wei、arXiv 2022。我在huggingface上看到了这些信息。限制:这个模型仅适用于英文文本。长文本将被截断至最多512个标记。
我该如何将其适应中文文本?
用中文文本训练模型?如果是这样的话,硬件配置可以做到吗?
谢谢。
期待您的回复。

4smxwvx5

4smxwvx51#

是的,目前它只支持英文。
我们将在接下来的一个月内发布多语言版本的文本嵌入(尽管没有关于时间线的保证),请继续关注!
谢谢,

6l7fqoea

6l7fqoea2#

所以期待多语言E5的发布!

knpiaxh1

knpiaxh13#

你支持中文吗?

相关问题