haystack MarkupConverter - 将HTML文档转换为纯文本

aoyhnmkz 于 4个月前发布在其他

关注(0)|答案(2)|浏览(66)

您的功能请求是否与问题相关？请描述。

爬虫组件运行良好。然而，一旦我将HTML文档保存到磁盘上，我希望将标记转换为纯文本。这是一个similar feature request,但我认为在内存中有一个专用节点来清理标记会很有用。通常我们希望将源数据保持在其原始状态在磁盘上。这允许用户更改转换器的参数以产生不同的转换，而不改变源。

描述您希望的解决方案

MarkupConverter可以使用BeautifulSoup来排除和/或包含HTML标签。给定一个输入HTML文档，用户可以定义他们想要排除(链接、样式、脚本等),或者他们可以定义他们只想要段落标签。允许用户定义包含/排除集合，可以灵活地提取特定任务所需的文本类型。
就像Markdown转换器一样，Markup转换器可以从头部元素中提取元数据。

haystack

来源：https://github.com/deepset-ai/haystack/issues/3988