Baichuan-7B 是否有embeddings模型释放出来

ha5z0ras 于 6个月前发布在其他

关注(0)|答案(5)|浏览(123)

所需先决条件

我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
我已在 Issue Tracker 和 Discussions 中搜索，确保这个问题尚未被报告过。如果已经报告过了，请在那里加1或留言。
在提出问题之前，请先考虑在 Discussion 中提问。

问题

你好，我想问一下，是否像open ai一样，有相关的embeddings模型释放出来
最好支持批量和单个输入文本两个方法：
1、embed_documents(texts: List[str]) -> List[List[float]]
2、embed_query(text: str) -> List[float]

待办事项

我已在上面提供了所有相关且必要的信息。
我已为这个问题选择了合适的标题。

Baichuan-7B

来源：https://github.com/baichuan-inc/Baichuan-7B/issues/69

5条答案

按热度按时间

ibrsph3r1#

如果要进行 Embeddings QA,那么 Embeddings 模型并不需要与基础模型相同，可以选择其他开源的 Embeddings 实现。目前效果较好的是：https://huggingface.co/moka-ai/m3e-base。你也可以使用 OpenAI 的 Embedding API。

赞(0）回复(0）举报 6个月前

hkmswyz62#

开源的测试了不少了，没有一个效果能在真实产品上使用，主要有两个原因：
1、几乎开源的都是句子级别的Embeddings
2、相似度排序效果上都存在一些问题，肉眼看着比较像的句子排序在top3之后
有记录的测试包括以下模型
shibing624/text2vec-base-chinese
GanymedeNil/text2vec-large-chinese
moka-ai/m3e-small
moka-ai/m3e-base
nghuyong/ernie-3.0-nano-zh
nghuyong/ernie-3.0-base-zh
效果明显高出一大截的还是openai的Embeddings，但是无法本地化
期待大模型的副产品Embeddings模型也释放出来
如果是做 Embeddings QA的话，Embeddings 模型没必要和基础模型相同，找一个其他的开源 Embeddings 的实现就行了。
目前效果比较好的是： https://huggingface.co/moka-ai/m3e-base
你用 OpenAI的Embedding API 也可以。