unstructured feat/parse_html_embed_objects

pxyaymoc 于 7个月前发布在其他

关注(0)|答案(3)|浏览(105)

我正在尝试解析包含嵌入式图片和YouTube视频的HTML文档。我可以使用partition_html函数获取文本元素，以及包含a标签的元数据对象。然而，图片元素和iframe元素都被遗漏了。
我希望这些数据点能够作为单独的元素(如HTMLImage、HTMLIframe)提供，或者将这些链接URL作为元数据对象的link_urls的一部分提供。

unstructured

来源：https://github.com/Unstructured-IO/unstructured/issues/2233

3条答案

按热度按时间

kwvwclae1#

@scanny - 你对此有什么看法？我认为我更倾向于避免在HTML文件中使用动态链接的视频或图片。至少对于图片来说，将HTML转换为PDF可以提取图片。我不认为我们会用到iframes。

赞(0）回复(0）举报 7个月前

1szpjjfi2#

tl;dr: 我们可能捕获这些链接，但很可能不会遍历它们以实际捕获图像或视频字节。

`<img>`

我曾考虑将 <img> 视为 <a> 的特殊情况，并将其作为元数据捕获图像 URL。一个挑战是 <img> 可能不包含文本，因此我们需要使用类似 "image" 的占位符，或者在文档元素中的 .metadata.link_text 字段中存在图像替代文本时使用它。
在某个时候，我们可能会考虑遍历链接并下载图像，可能是在 "hi_res" 模式下。关键问题是避免恶意内容，这是一个非平凡的额外工程努力，而且无论你采取什么措施来避免它，仍然存在风险。

`<iframe>`

<iframe> 本质上是一个指向另一个网页的链接，然后由浏览器获取并显示在 "frame" 中。与 <img> 非常相似，只是是一个完整的 HTML 页面。
我同意递归获取 <iframe> 网页并将其处理为元素可能不是我们想要支持的任何时候。我脑海中首先想到的是还有恶意内容的风险。
我们可以将链接作为某种元数据提取出来，但由于 <iframe> 为空(该 HTML 元素不能包含内容),因此没有文本，因此没有 unstructured 文档-Element 可以附加到该元数据上。所以这需要一些技巧。我们需要添加一个 "假" 元素或其他东西来走这条路。

赞(0）回复(0）举报 7个月前

bjp0bcyl3#

从链接下载恶意内容也是我的主要担忧。我喜欢将<img>视为链接并提取链接的想法。让我们保持这个开放，我们可以考虑这样做。

赞(0）回复(0）举报 7个月前

我来回答

unstructured feat/parse_html_embed_objects

3条答案

tl;dr: 我们可能捕获这些链接，但很可能不会遍历它们以实际捕获图像或视频字节。

`<img>`

`<iframe>`

相关问题

热门标签

最新问答