问题验证
- 我已经在文档和Discord上寻找答案。
问题
你好,我用RagDatasetGenerator
创建了一个LabelledRagDataset
。现在我该如何使用RetrieverEvaluator
或BatchEvalRunner
与它一起使用?它们是否兼容?
文档只提到了与RagEvaluatorPack
一起使用,但它不够可定制。我的目标是使用Bedrock LLMs测量命中率、MRR、上下文相关性和忠实度。
你好,我用RagDatasetGenerator
创建了一个LabelledRagDataset
。现在我该如何使用RetrieverEvaluator
或BatchEvalRunner
与它一起使用?它们是否兼容?
文档只提到了与RagEvaluatorPack
一起使用,但它不够可定制。我的目标是使用Bedrock LLMs测量命中率、MRR、上下文相关性和忠实度。
5条答案
按热度按时间btqmn9zl1#
根据上下文提供的信息,似乎
LabelledRagDataset
可以与RagEvaluatorPack
一起使用,如代码片段所示。然而,上下文中没有提到RetrieverEvaluator
或BatchEvalRunner
,因此不清楚它们如何与LabelledRagDataset
一起使用。至于自定义 llm、嵌入模型、提示以及添加准确率和 MRR 指标,上下文没有提供足够的信息来给出完整的答案。这些定制可能需要对
RagEvaluatorPack
进行修改,或者创建一个自定义评估器。以下是上下文中的代码片段,展示了如何使用
LabelledRagDataset
与RagEvaluatorPack
一起使用:query_engine
应该使用与rag_dataset
相同的源文档构建。benchmark_df
包含用于评估指标(如Correctness
、Relevancy
、Faithfulness
和Context Similarity
)的平均分数。你可以在 evaluating with LlamaDatasets guide 中找到更多信息。
如果你能提供更多关于你的用例或你试图进行的具体定制的详细信息,我可能会给出更精确的答案。
来源
此响应旨在帮助您节省时间并提高效率。它不是 精确解决方案,而是您自己研究的起点。
请帮我变得更有用!如果这有帮助,请留下一个 👍,如果无关紧要,请留下一个 👎。
如果您想继续对话,请以 @dosu-bot 开头回复。
l5tcr1uw2#
看起来:
BaseRetrievalEvaluator.aevaluate_dataset
需要一个EmbeddingQAFinetuneDataset
数据集对象BatchEvalRunner.aevaluate_responses
需要queries
和responses
两个列表RagEvaluatorPack
需要一个LabelledRagDataset
所以目前我们有三种不同的评估机制,需要三种不同的数据集格式。似乎
LabelledRagDataset
是一个较新的抽象,可以作为所有这些的单一数据集格式,因此不再需要多种不同格式的基本上相同的信息?kdfy810k3#
Bump 😅
bsxbgnwa4#
你好,@austinmw
我正在帮助LlamaIndex团队管理我们的待办事项列表,并将此问题标记为过时。从我的理解来看,您之前询问了使用
LabelledRagDataset
与RetrieverEvaluator
或BatchEvalRunner
是否兼容。关于文档中提到的LabelledRagDataset
与RagEvaluatorPack
的使用以及需要更多的定制化内容进行了讨论。有人建议,定制化可能需要对RagEvaluatorPack
进行修改,或者创建一个自定义评估器。您随后指出,目前有三种不同的评估机制需要三种不同的数据集格式,并建议LabelledRagDataset
可以作为所有这些之间的单一数据集格式。这个问题是否仍然与LlamaIndex仓库的最新版本相关?如果是,请通过在问题上发表评论告知LlamaIndex团队。否则,请随意关闭该问题,或者它将在7天后自动关闭。
感谢您对LlamaIndex项目的理解和贡献。
Dosu
p8ekf7hl5#
不陈旧。