你想看到什么?
显然,较小的块大小可以提高检索质量,但较大的块大小可以提高生成质量:Advanced RAG 01: Small-to-Big Retrieval。
如果当前的嵌入过程为每个文档存储相对的块ID,那么当检索到块i
时,我们可以在其前面添加块[i-2, i-1]
,在后面添加块[i+1, i+2]
,并将这个大的组合文本传递给生成步骤。这将有两个好处:检索时使用较小的块和生成时使用较大的块。当然,我们需要确保在添加null
之前存在任何i+/-n
块。
我的想法是简化实现,只需添加可选的前置/后置整数,这些整数默认为0,但用户可以在设置中更改它们。
另一种方法是进行完整的Parent Document Retriever,但我认为这是个更大的任务。
1条答案
按热度按时间htzpubme1#
Parent Document Retriever对于文档(如固定选项)来说是一个不错的选择。由于文档的混合,其中一些太大而无法作为父文档检索。