unstructured feat/partition_metadata

vzgqcmou  于 6个月前  发布在  其他
关注(0)|答案(1)|浏览(57)

您的功能请求是否与问题相关?请描述。

我需要能够从HTML文档中提取额外的元数据。具体来说,我希望提取网站图标和head > title元素。

描述您希望的解决方案

一种灵活的方法来为每种文档类型定义要提取的额外元数据。文本文件类型可以通过正则表达式(如目前似乎支持的)或通过选择器处理html等。

描述您考虑过的替代方案

在分区之后、索引之前进行处理,但这种方法既不优雅也不高效。

附加上下文

即使使用LLM来提取元数据as orchestration frameworks support也会很好。

nszi6y05

nszi6y051#

我也想要这个。标题,还有像关键词和描述这样的元标签,以及og标签。目前我自己获取URL,使用beautifulsoup解析这些东西,然后将响应文本传递给partition进行后续处理。但是,如果partition_html能以更结构化的方式返回这些内容,那就更好了。尤其是对于标题,如果它以e.g. PageTitle(或者我猜是HTMLHeadTitle?)元素类型返回,那就太好了。

相关问题