DB-GPT 使用chroma库和bge-large-zh-v1.5模型，在回忆某些单词时，完全不相关的片段被回忆起来,

j8yoct9x 于 2个月前发布在其他

关注(0)|答案(2)|浏览(42)

在提问前搜索

我在 issues 中进行了搜索，但没有找到类似的问题。

操作系统信息

Linux

Python版本信息

3.10

DB-GPT版本

主版本

安装信息

设备信息

GPU 96G

模型信息

bge-large-zh-v1.5

发生的问题

使用的是bge-large-zh-v1.5模型和chroma向量库，在检索某些词语的时候，召回的切片分数很高但是是和词语完全无关的。但只有某个词语是这样的，其他的绝大部分词语的召回还是比较准的。目前文档存在pdf、csv和word,切片数量大概6000个左右。示例：词语：“水资源”，存在20个文档，900个切片，直接出现了水资源词语。其他文档均未出现这三个字。但在询问水资源时，召回的切片中出现的均是与其无关的切片。目前未发现其他词语出现这个问题。正常应该是从完全出现这个词语的切片中进行召回才是合理的。未知复现方法。无响应。是否愿意提交PR?是的，我愿意提交一个PR!

DB-GPT

来源：https://github.com/eosphoros-ai/DB-GPT/issues/1646