llama_index 代理RAG如何判断问题是否应通过单个RAG检索或多个代理检索来回答？

62o28rlo 于 2个月前发布在其他

关注(0)|答案(3)|浏览(36)

问题验证

我在文档和discord上都搜索了答案。

问题

我想使用llama-index构建一个Agentic RAG,如https://learn.deeplearning.ai/courses/building-agentic-rag-with-llamaindex/lesson/1/introduction中提到的。我希望系统对大多数简单问题进行一次RAG查询。对于复杂问题，我希望系统使用代理进行多次检索，并根据答案给出总结。我的问题是，如何判断用户的提问是否应该由单个RAG查询还是代理来分解查询并进行多次检索？
我在这里有两个想法：

在开始时添加另一个LLM调用，以判断问题是否可以通过a)单个RAG检索回答，或者b)它足够复杂，需要多次检索。如果LLM调用回答“a)”，则将问题直接发送到RAG。如果LLM调用回答“b)”，则使用代理进行多次检索。
始终先将问题发送到RAG。找到一种方法让LLM判断答案是否足够全面，如果不够，就切换到代理进行多次检索。
您能提供关于如何处理的建议吗？
问题示例：

可以由单个RAG查询回答的简单示例：
支持IPv6的调度程序X是否支持？
统计计数器Y是什么？
需要代理通过多次检索回答的复杂示例：
查找所有支持IPv6的调度程序类型。(需要代理首先列出所有调度程序类型，然后检查每个调度程序是否支持IPv6。)
查找所有与计费功能相关的统计计数器。(需要代理首先列出所有统计计数器，然后检查每个计数器是否与计费功能相关。)

提前感谢您！

llama_index

来源：https://github.com/run-llama/llama_index/issues/13832

3条答案

按热度按时间

tjjdgumg1#

要确定用户的问题是否应该由单个RAG查询回答，还是需要代理来分解查询并执行多个检索，您可以遵循以下指导原则：

单一文档查询:如果问题涉及到单个文档的特定方面或摘要，则单个RAG查询就足够了。例如：
"调度员X支持IPv6吗？"
"统计计数器Y是什么？"
多文档查询:如果问题涉及在多个文档之间进行比较或总结信息，则需要代理来分解查询并执行多个检索。例如：
"查找所有支持IPv6的调度员类型。"
"查找与计费功能相关的所有统计计数器。"

对于实现，您可以考虑以下方法：

方法1:初始LLM调用以分类查询复杂性

初始LLM调用:使用LLM将查询分类为简单或复杂。

基于分类的路由:
如果分类为简单，将查询直接发送到RAG。
如果分类为复杂，使用代理分解查询并执行多个检索。

方法2:初始RAG查询后处理

初始RAG查询:始终先将查询发送到RAG。

后处理:
让LLM判断答案是否足够全面。
如果答案不够全面，切换到使用代理执行多个检索并提供更详细的响应。

示例实现

对于简单的查询：

response = self._client.search(
    collection_name=self.collection_name,
    query_vector=query_embedding,
    limit=query.similarity_top_k,
    query_filter=query_filter,
)

对于复杂的查询：

sub_questions = sub_question_query_engine.generate_sub_questions(main_query)
sub_questions = prune_sub_questions(sub_questions)
answers = []
for sub_question in sub_questions:
    answer = sub_question_query_engine.retrieve_answer(sub_question)
    answers.append(answer)
final_answer = combine_answers(answers)

此外，还可以考虑使用 Router Query Engine ,这可能对根据其复杂性将查询路由到适当的引擎很有用 1(https://github.com/run-llama/llama_index/issues/10483) 。
通过遵循这些指导原则和方法，您可以有效地确定用户的问题是否应该由单个RAG查询回答，还是需要代理来执行多个检索。