您的功能请求是否与问题相关?请描述。
我需要能够从HTML文档中提取额外的元数据。具体来说,我希望提取网站图标和head > title
元素。
描述您希望的解决方案
一种灵活的方法来为每种文档类型定义要提取的额外元数据。文本文件类型可以通过正则表达式(如目前似乎支持的)或通过选择器处理html等。
描述您考虑过的替代方案
在分区之后、索引之前进行处理,但这种方法既不优雅也不高效。
附加上下文
即使使用LLM来提取元数据as orchestration frameworks support也会很好。
1条答案
按热度按时间nszi6y051#
我也想要这个。标题,还有像关键词和描述这样的元标签,以及og标签。目前我自己获取URL,使用beautifulsoup解析这些东西,然后将响应文本传递给
partition
进行后续处理。但是,如果partition_html
能以更结构化的方式返回这些内容,那就更好了。尤其是对于标题,如果它以e.g.PageTitle
(或者我猜是HTMLHeadTitle
?)元素类型返回,那就太好了。