你好,
这个问题是关于e5: Text Embeddings by Weakly-Supervised Contrastive Pre-training的。梁旺、南洋、黄小龙、焦斌星、杨林军、江大鑫、Rangan Majumder、Furu Wei、arXiv 2022。我在huggingface上看到了这些信息。限制:这个模型仅适用于英文文本。长文本将被截断至最多512个标记。
我该如何将其适应中文文本?
用中文文本训练模型?如果是这样的话,硬件配置可以做到吗?
谢谢。
期待您的回复。
你好,
这个问题是关于e5: Text Embeddings by Weakly-Supervised Contrastive Pre-training的。梁旺、南洋、黄小龙、焦斌星、杨林军、江大鑫、Rangan Majumder、Furu Wei、arXiv 2022。我在huggingface上看到了这些信息。限制:这个模型仅适用于英文文本。长文本将被截断至最多512个标记。
我该如何将其适应中文文本?
用中文文本训练模型?如果是这样的话,硬件配置可以做到吗?
谢谢。
期待您的回复。
3条答案
按热度按时间4smxwvx51#
是的,目前它只支持英文。
我们将在接下来的一个月内发布多语言版本的文本嵌入(尽管没有关于时间线的保证),请继续关注!
谢谢,
梁
6l7fqoea2#
所以期待多语言E5的发布!
knpiaxh13#
你支持中文吗?