haystack Build a CSVToDocument Component

yi0zb3m4  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(50)

您的功能请求是否与问题相关?请描述。

Haystack 目前支持将多种文件格式进行转换,例如 .txt.pdfmarkdown 。如果有一个组件可以将 csv 格式文件转换为 Document 对象列表,那将会非常有用。

描述您希望实现的解决方案

我希望实现一个 CSVToDocument 功能,它可以将 CSV 文件加载到一系列 Document 对象中。CSV 文件的每一行都应该转换为一个文档。我认为这是最佳选择,因为确实每行 CSV 文件通常代表不同的数据记录。
每一行都可以转换为键值对,以便输出的文档可以是以下格式:
Document(id=XXX, content: 'column1: value1\ncolumn2: value2\ncolumn3: value3', meta: {'row': 0, 'source': './example.csv'})

描述您考虑过的替代方案

Unstructured 已经存在于 Haystack 中,因此已经有了将 .csv 文件转换的方法。然而,我认为有一个专门为此目的设计的组件会很有用,而不需要通过生成 API 密钥来与外部服务进行通信。

gorkyyrv

gorkyyrv1#

嘿,@tradicio!
只是一个快速的澄清:Unstructured也可以在本地(没有API密钥)使用Docker运行,如指定的here
(我知道它没有得到很好的文档记录,我会打开一个问题来改进文档...)

相关问题