unstructured feat/skip ocr for certain element types

p8ekf7hl  于 6个月前  发布在  其他
关注(0)|答案(4)|浏览(74)

有一些元素类型(如图像或图片)可能需要通过自定义分类器模型来判断是否需要进行OCR。为一组元素类型指定不进行OCR的参数,我们可以跳过这些元素类型的OCR处理。这个功能可能只适用于PDF和图像,因为docx、pptx等无法捕获像图像这样的元素类型。

rn0zuynd

rn0zuynd1#

@beez2022 你能提供一个示例文档吗?这个问题适用于哪些文件格式?
一般来说,图片和照片是同一件事,会被划分为一个 Image 元素。
你是否可以通过完全不进行OCR来实现你想要的功能?只有图片会被进行OCR。

wxclj1h5

wxclj1h52#

早上好@scanny。我打算就这个问题做出贡献。根据投稿指南,我已经提出了这个问题。这个问题的文件格式为pdf和图像(.jpg, .png)。我意识到它们最终调用相同的ocr功能。我们有一个要求,在决定是否需要ocr之前,需要对从pdf文档中提取的图像进行分类。我们还可能使用另一个ocr工具,而不是目前由unstructured提供的工具。因此,我认为关闭某些元素类型的ocr功能是有帮助的。
我之所以区分图片和图像,是因为我意识到一个.png文件会经过unstructured_models并将"image"元素输出为"picture"。
最后,你提到“只有图像会被ocr”-所以目前,是否有一个选项可以关闭嵌入在pdf中的图像的ocr?
谢谢

mctunoxg

mctunoxg3#

目前,无法关闭嵌入在PDF中的图像的OCR功能。

q7solyqu

q7solyqu4#

感谢@christinestraub@scanny

相关问题