您的功能请求是否与问题相关?请描述。
Haystack 目前支持将多种文件格式进行转换,例如 .txt
、 .pdf
和 markdown
。如果有一个组件可以将 csv 格式文件转换为 Document
对象列表,那将会非常有用。
描述您希望实现的解决方案
我希望实现一个 CSVToDocument 功能,它可以将 CSV 文件加载到一系列 Document
对象中。CSV 文件的每一行都应该转换为一个文档。我认为这是最佳选择,因为确实每行 CSV 文件通常代表不同的数据记录。
每一行都可以转换为键值对,以便输出的文档可以是以下格式:Document(id=XXX, content: 'column1: value1\ncolumn2: value2\ncolumn3: value3', meta: {'row': 0, 'source': './example.csv'})
描述您考虑过的替代方案
Unstructured 已经存在于 Haystack 中,因此已经有了将 .csv 文件转换的方法。然而,我认为有一个专门为此目的设计的组件会很有用,而不需要通过生成 API 密钥来与外部服务进行通信。
1条答案
按热度按时间gorkyyrv1#
嘿,@tradicio!
只是一个快速的澄清:Unstructured也可以在本地(没有API密钥)使用Docker运行,如指定的here。
(我知道它没有得到很好的文档记录,我会打开一个问题来改进文档...)