unstructured feat/parse_html_embed_objects

pxyaymoc  于 7个月前  发布在  其他
关注(0)|答案(3)|浏览(105)

我正在尝试解析包含嵌入式图片和YouTube视频的HTML文档。我可以使用partition_html函数获取文本元素,以及包含a标签的元数据对象。然而,图片元素和iframe元素都被遗漏了。
我希望这些数据点能够作为单独的元素(如HTMLImage、HTMLIframe)提供,或者将这些链接URL作为元数据对象的link_urls的一部分提供。

kwvwclae

kwvwclae1#

@scanny - 你对此有什么看法?我认为我更倾向于避免在HTML文件中使用动态链接的视频或图片。至少对于图片来说,将HTML转换为PDF可以提取图片。我不认为我们会用到iframes。

1szpjjfi

1szpjjfi2#

tl;dr: 我们可能捕获这些链接,但很可能不会遍历它们以实际捕获图像或视频字节。

<img>

我曾考虑将 <img> 视为 <a> 的特殊情况,并将其作为元数据捕获图像 URL。一个挑战是 <img> 可能不包含文本,因此我们需要使用类似 "image" 的占位符,或者在文档元素中的 .metadata.link_text 字段中存在图像替代文本时使用它。
在某个时候,我们可能会考虑遍历链接并下载图像,可能是在 "hi_res" 模式下。关键问题是避免恶意内容,这是一个非平凡的额外工程努力,而且无论你采取什么措施来避免它,仍然存在风险。

<iframe>

<iframe> 本质上是一个指向另一个网页的链接,然后由浏览器获取并显示在 "frame" 中。与 <img> 非常相似,只是是一个完整的 HTML 页面。
我同意递归获取 <iframe> 网页并将其处理为元素可能不是我们想要支持的任何时候。我脑海中首先想到的是还有恶意内容的风险。
我们可以将链接作为某种元数据提取出来,但由于 <iframe> 为空(该 HTML 元素不能包含内容),因此没有文本,因此没有 unstructured 文档-Element 可以附加到该元数据上。所以这需要一些技巧。我们需要添加一个 "假" 元素或其他东西来走这条路。

bjp0bcyl

bjp0bcyl3#

从链接下载恶意内容也是我的主要担忧。我喜欢将<img>视为链接并提取链接的想法。让我们保持这个开放,我们可以考虑这样做。

相关问题