llama_index 如何使用带有标签的Rag数据集与RetrieverEvaluator或BatchEvalRunner一起使用?

q7solyqu  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(37)

问题验证

  • 我已经在文档和Discord上寻找答案。

问题

你好,我用RagDatasetGenerator创建了一个LabelledRagDataset。现在我该如何使用RetrieverEvaluatorBatchEvalRunner与它一起使用?它们是否兼容?
文档只提到了与RagEvaluatorPack一起使用,但它不够可定制。我的目标是使用Bedrock LLMs测量命中率、MRR、上下文相关性和忠实度。

btqmn9zl

btqmn9zl1#

  • 🤖*

根据上下文提供的信息,似乎 LabelledRagDataset 可以与 RagEvaluatorPack 一起使用,如代码片段所示。然而,上下文中没有提到 RetrieverEvaluatorBatchEvalRunner ,因此不清楚它们如何与 LabelledRagDataset 一起使用。
至于自定义 llm、嵌入模型、提示以及添加准确率和 MRR 指标,上下文没有提供足够的信息来给出完整的答案。这些定制可能需要对 RagEvaluatorPack 进行修改,或者创建一个自定义评估器。
以下是上下文中的代码片段,展示了如何使用 LabelledRagDatasetRagEvaluatorPack 一起使用:

from llama_index.llama_pack import download_llama_pack

RagEvaluatorPack = download_llama_pack("RagEvaluatorPack", "./pack")

rag_evaluator = RagEvaluatorPack(
    query_engine=query_engine,  # built with the same source Documents as the rag_dataset
    rag_dataset=rag_dataset,
)
benchmark_df = await rag_evaluator.run()

query_engine 应该使用与 rag_dataset 相同的源文档构建。benchmark_df 包含用于评估指标(如 CorrectnessRelevancyFaithfulnessContext Similarity)的平均分数。
你可以在 evaluating with LlamaDatasets guide 中找到更多信息。
如果你能提供更多关于你的用例或你试图进行的具体定制的详细信息,我可能会给出更精确的答案。

来源

此响应旨在帮助您节省时间并提高效率。它不是 精确解决方案,而是您自己研究的起点。
请帮我变得更有用!如果这有帮助,请留下一个 👍,如果无关紧要,请留下一个 👎。
如果您想继续对话,请以 @dosu-bot 开头回复。

l5tcr1uw

l5tcr1uw2#

看起来:

  • BaseRetrievalEvaluator.aevaluate_dataset 需要一个 EmbeddingQAFinetuneDataset 数据集对象
  • BatchEvalRunner.aevaluate_responses 需要 queriesresponses 两个列表
  • RagEvaluatorPack 需要一个 LabelledRagDataset

所以目前我们有三种不同的评估机制,需要三种不同的数据集格式。似乎 LabelledRagDataset 是一个较新的抽象,可以作为所有这些的单一数据集格式,因此不再需要多种不同格式的基本上相同的信息?

bsxbgnwa

bsxbgnwa4#

你好,@austinmw

我正在帮助LlamaIndex团队管理我们的待办事项列表,并将此问题标记为过时。从我的理解来看,您之前询问了使用LabelledRagDatasetRetrieverEvaluatorBatchEvalRunner是否兼容。关于文档中提到的LabelledRagDatasetRagEvaluatorPack的使用以及需要更多的定制化内容进行了讨论。有人建议,定制化可能需要对RagEvaluatorPack进行修改,或者创建一个自定义评估器。您随后指出,目前有三种不同的评估机制需要三种不同的数据集格式,并建议LabelledRagDataset可以作为所有这些之间的单一数据集格式。

这个问题是否仍然与LlamaIndex仓库的最新版本相关?如果是,请通过在问题上发表评论告知LlamaIndex团队。否则,请随意关闭该问题,或者它将在7天后自动关闭。

感谢您对LlamaIndex项目的理解和贡献。
Dosu

相关问题