unstructured feat/skip ocr for certain element types

p8ekf7hl 于 10个月前发布在其他

关注(0)|答案(4)|浏览(108)

有一些元素类型(如图像或图片)可能需要通过自定义分类器模型来判断是否需要进行OCR。为一组元素类型指定不进行OCR的参数，我们可以跳过这些元素类型的OCR处理。这个功能可能只适用于PDF和图像，因为docx、pptx等无法捕获像图像这样的元素类型。

unstructured

来源：https://github.com/Unstructured-IO/unstructured/issues/3163

4条答案

按热度按时间

rn0zuynd1#

@beez2022 你能提供一个示例文档吗？这个问题适用于哪些文件格式？
一般来说，图片和照片是同一件事，会被划分为一个 Image 元素。
你是否可以通过完全不进行OCR来实现你想要的功能？只有图片会被进行OCR。

赞(0）回复(0）举报 10个月前

wxclj1h52#

早上好@scanny。我打算就这个问题做出贡献。根据投稿指南，我已经提出了这个问题。这个问题的文件格式为pdf和图像(.jpg, .png)。我意识到它们最终调用相同的ocr功能。我们有一个要求，在决定是否需要ocr之前，需要对从pdf文档中提取的图像进行分类。我们还可能使用另一个ocr工具，而不是目前由unstructured提供的工具。因此，我认为关闭某些元素类型的ocr功能是有帮助的。
我之所以区分图片和图像，是因为我意识到一个.png文件会经过unstructured_models并将"image"元素输出为"picture"。
最后，你提到“只有图像会被ocr”-所以目前，是否有一个选项可以关闭嵌入在pdf中的图像的ocr?
谢谢

赞(0）回复(0）举报 10个月前

mctunoxg3#

目前，无法关闭嵌入在PDF中的图像的OCR功能。

赞(0）回复(0）举报 10个月前

q7solyqu4#

感谢@christinestraub@scanny

赞(0）回复(0）举报 10个月前