haystack MarkupConverter - 将HTML文档转换为纯文本

aoyhnmkz  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(66)

您的功能请求是否与问题相关?请描述。

爬虫组件运行良好。然而,一旦我将HTML文档保存到磁盘上,我希望将标记转换为纯文本。这是一个similar feature request,但我认为在内存中有一个专用节点来清理标记会很有用。通常我们希望将源数据保持在其原始状态在磁盘上。这允许用户更改转换器的参数以产生不同的转换,而不改变源。

描述您希望的解决方案

MarkupConverter可以使用BeautifulSoup来排除和/或包含HTML标签。给定一个输入HTML文档,用户可以定义他们想要排除(链接、样式、脚本等),或者他们可以定义他们只想要段落标签。允许用户定义包含/排除集合,可以灵活地提取特定任务所需的文本类型。
就像Markdown转换器一样,Markup转换器可以从头部元素中提取元数据。

nnvyjq4y

nnvyjq4y1#

如果这个逻辑上可以作为转换器,那么我可以很快地放置一个PR :)

az31mfrm

az31mfrm2#

你好,@sebjwallace!这是一个有趣的功能请求,似乎与#3838有关。
为了确保我们在投入实际实现之前都在同一页面上,我们会要求你提交一份设计提案,详细说明你在Haystack中希望看到的变化。一旦获得批准,你可以自己实施该提案,等待贡献者采纳,或者请核心开发人员优先考虑它。

相关问题