unstructured feat/partition_metadata

vzgqcmou 于 6个月前发布在其他

关注(0)|答案(1)|浏览(57)

您的功能请求是否与问题相关？请描述。

我需要能够从HTML文档中提取额外的元数据。具体来说，我希望提取网站图标和head > title元素。

描述您希望的解决方案

一种灵活的方法来为每种文档类型定义要提取的额外元数据。文本文件类型可以通过正则表达式(如目前似乎支持的)或通过选择器处理html等。

描述您考虑过的替代方案

在分区之后、索引之前进行处理，但这种方法既不优雅也不高效。

附加上下文

即使使用LLM来提取元数据as orchestration frameworks support也会很好。

unstructured

来源：https://github.com/Unstructured-IO/unstructured/issues/2933

1条答案

按热度按时间

nszi6y051#

我也想要这个。标题，还有像关键词和描述这样的元标签，以及og标签。目前我自己获取URL,使用beautifulsoup解析这些东西，然后将响应文本传递给partition进行后续处理。但是，如果partition_html能以更结构化的方式返回这些内容，那就更好了。尤其是对于标题，如果它以e.g. PageTitle(或者我猜是HTMLHeadTitle?)元素类型返回，那就太好了。

赞(0）回复(0）举报 6个月前

我来回答

unstructured feat/partition_metadata

1条答案

相关问题

热门标签

最新问答