请查看提案:#5540,并查看feature request了解Haystack v1。
LLMs客户端输出字符串,但许多组件期望其他对象类型,LLMs可能以可解析的格式生成输出,可以直接转换为对象。输出解析器将这些字符串转换为用户选择的对象。MetadataBuilder
。它将字符串回复插入到最初传递给LLM的文档中作为元数据。我愿意为此重命名,因为目标是输出带有插入元数据的文档。
例如,可以使用PromptNode对较长的文档进行摘要,用户希望将结果作为该文档的元数据插入。这样可以方便地向文档添加类别标签、情感、摘要等信息,以便在查询时(例如,高效地过滤搜索空间或利用元数据进行在线检索/生成步骤)使用。
5条答案
按热度按时间rn0zuynd1#
关于预期的使用案例和组件I/O的更多信息,可以在这里找到。
通常情况下,最好专注于开发这个组件,一旦循环和输入列表可以通过Pipelines处理,就可以进行开发。(否则,我们将构建一个在Pipelines中实际上无法使用的组件。)
fd3cxomn2#
我们正在考虑这个问题,以便在下一个冲刺中实施。是否有任何与此组件实现相关的新信息?
7eumitmz3#
这可能是相关的:https://www.notion.so/deepsetai/Advanced-Use-Case-Automatic-Metadata-Enrichment-8fdfc56e82434459963beaa7a9dc5069
chy5wohz4#
嘿,@julian-risch ,感谢你的联系!我这边没有新的信息。我认为 @davidsbatista 做的 @anakin87 链接的工作正是我们正在考虑的类型。一般来说,文件元数据丰富化以帮助通过过滤器检索,嵌入元字段等。也可能用于下游应用程序(例如,他们想在检索到的文件旁边显示摘要)。我特别感兴趣的是一个设置,可以让我自动从 PDF 文件中提取诸如标题、作者、出版日期等信息,然后将这些作为文件的元数据保存。
56lgkhnf5#
see #5700 - it's related/duplicated