llama_index [Bug]: RAPTOR由于重复的文档ID而失败，chromadb.errors.DuplicateIDError: 预期的ID应该是唯一的，但发现了重复项：17ab7f1d-***********

u59ebvdq 于 6个月前发布在其他

关注(0)|答案(8)|浏览(65)

根据提供的错误日志，问题出在chromadb.errors.DuplicateIDError: Expected IDs to be unique, found duplicates of: 17ab7f1d-b145-42c1-8dc3-8e2e29541823。这意味着在插入数据时，发现有重复的文档ID。

为了解决这个问题，你可以尝试以下方法：

确保在创建索引之前，没有重复的文档ID。你可以通过检查输入文件夹中的文件名来实现这一点。如果有重复的文件名，请删除或重命名其中一个以消除重复。
如果你确信输入文件夹中没有重复的文件名，那么可能是在处理文档时产生了重复的ID。在这种情况下，你需要检查生成文档ID的代码部分，确保为每个文档分配了唯一的ID。
如果上述方法都无法解决问题，你可以尝试使用不同的向量存储库，如faiss或Annoy,看看是否仍然出现重复ID的问题。

llama_index

来源：https://github.com/run-llama/llama_index/issues/14711

8条答案

按热度按时间

unftdfkk1#

Chroma不允许使用重复的id,因此需要处理这个问题才能使该过程正常工作。
尝试使用不同的矢量数据库

赞(0）回复(0）举报 6个月前

vbkedwbf2#

由于块可以属于多个簇，因此存在重复项。

赞(0）回复(0）举报 6个月前

lmvvr0a83#

由于块可以属于多个簇，因此存在重复项。我们是否可以利用ChromaDB来实现这个用例？

赞(0）回复(0）举报 6个月前

pkmbmrz74#

Chroma不允许使用重复的id,这需要处理才能使此过程正常工作。
尝试使用不同的矢量数据库
可以为这个用例推荐一个更好的矢量存储，它不会最终导致重复问题。

赞(0）回复(0）举报 6个月前

kg7wmglp5#

Qdrant是一个分布式向量存储系统，它可以处理大规模的向量数据。如果您想尝试使用Qdrant,您可以访问其官方网站以获取更多信息。

赞(0）回复(0）举报 6个月前

2fjabf4q6#

我认为我尝试过的每个矢量存储都能很好地处理这个问题😅，也许可以试试qdrant。

在查询索引(Qdrant向量数据库)时，我遇到了以下问题。
代码：

from qdrant_client import QdrantClient
from llama_index.vector_stores.qdrant import QdrantVectorStore
client = QdrantClient(path="./qdrant")
vector_store = QdrantVectorStore(client=client, collection_name="dump")
from llama_index.packs.raptor import RaptorRetriever
retriever = RaptorRetriever(
 [],
 embed_model=embed_model,
 llm=llm,
 vector_store=vector_store,
 similarity_top_k=2,
 mode="tree_traversal",
)
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.response_synthesizers.type import ResponseMode
query_engine = RetrieverQueryEngine.from_args(
 retriever, llm=llm, response_mode=ResponseMode.REFINE
)
response = query_engine.query("Explain about catalogues")
response

错误日志：

Cell In[28], line 23
17 from llama_index.core.response_synthesizers.type import ResponseMode
19 query_engine = RetrieverQueryEngine.from_args(
20 retriever, llm=llm, response_mode=ResponseMode.REFINE
21 )
 ---> 23 response = query_engine.query("Explain about catalogues")
24 response
File c:\Users\017912\AppData\Local\anaconda3\envs\dell_chatbot\Lib\site-packages\llama_index\core\instrumentation\dispatcher.py:230, in Dispatcher.span.wrapper(func, instance, args, kwargs)
226 self.span_enter(id_=id_, bound_args=bound_args, instance=instance, parent_id=parent_id)
227 try:
 --> 230 result = func(*args, **kwargs)
231 except BaseException as e:
232 self.event(SpanDropEvent(span_id=id_, err_str=str(e)))
File c:\Users\017912\AppData\Local\anaconda3\envs\dell_chatbot\Lib\site-packages\llama_index\core\base\base_query_engine.py:52, in BaseQueryEngine.query(self, str_or_query_bundle)
50 if isinstance(str_or_query_bundle, str):
51 str_or_query_bundle = QueryBundle(str_or_query_bundle)
 ---> 52 query_result = self._query(str_or_query_bundle)
53 dispatcher.event(QueryEndEvent(query=str_or_query_bundle, response=query_result))
 ...
940 query_filter=query_filter,
941 )
943 return self.parse_to_query_result(response)
AttributeError: 'NoneType' object has no attribute 'search'

赞(0）回复(0）举报 6个月前

jslywgbw7#

from qdrant_client import QdrantClient, AsyncQdrantClient

client = QdrantClient(path="./qdrant")
client = AsyncQdrantClient(path="./qdrant")
vector_store = QdrantVectorStore(client=client, aclient =aclient, collection_name="dump")

赞(0）回复(0）举报 6个月前

c3frrgcw8#

我正在遇到一个用例，需要将多个文档的完整内容(包括图片和表格)输入到LLM/生成式AI模型中。目标是在指定的架构中生成一个连贯的内容片段，例如课程或类似的输出。
这意味着LLM/生成式AI模型需要访问每个文档的所有细节才能从它们中生成内容。
是否有替代RAG或模型微调的方法？
使用RAG,我们受到上下文长度的限制，并且完全依赖于块。
你能推荐一种实现这个用例的方法吗？

赞(0）回复(0）举报 6个月前

我来回答

llama_index [Bug]: RAPTOR由于重复的文档ID而失败，chromadb.errors.DuplicateIDError: 预期的ID应该是唯一的，但发现了重复项：17ab7f1d-***********

8条答案

相关问题

热门标签

最新问答