在提问前搜索
- 我在 issues 中进行了搜索,但没有找到类似的问题。
操作系统信息
Linux
Python版本信息
3.10
DB-GPT版本
主版本
相关场景
- 聊天数据
- 聊天Excel
- 聊天数据库
- 聊天知识库
- 模型管理
- Jmeter 盘
- 插件
安装信息
- Installation From Source
- Docker Installation
- Docker Compose Installation
- Cluster Installation
- AutoDL图像
- 其他
设备信息
GPU 96G
模型信息
bge-large-zh-v1.5
发生的问题
使用的是bge-large-zh-v1.5模型和chroma向量库,在检索某些词语的时候,召回的切片分数很高但是是和词语完全无关的。但只有某个词语是这样的,其他的绝大部分词语的召回还是比较准的。目前文档存在pdf、csv和word,切片数量大概6000个左右。示例:词语:“水资源”,存在20个文档,900个切片,直接出现了水资源词语。其他文档均未出现这三个字。但在询问水资源时,召回的切片中出现的均是与其无关的切片。目前未发现其他词语出现这个问题。正常应该是从完全出现这个词语的切片中进行召回才是合理的。未知复现方法。无响应。是否愿意提交PR?是的,我愿意提交一个PR!
2条答案
按热度按时间jslywgbw1#
你的文档类型是什么?你能给我们展示一些错误案例吗?
mv1qrgav2#
这个问题已经被标记为
stale
,因为已经超过30天没有任何活动。