有一些元素类型(如图像或图片)可能需要通过自定义分类器模型来判断是否需要进行OCR。为一组元素类型指定不进行OCR的参数,我们可以跳过这些元素类型的OCR处理。这个功能可能只适用于PDF和图像,因为docx、pptx等无法捕获像图像这样的元素类型。
rn0zuynd1#
@beez2022 你能提供一个示例文档吗?这个问题适用于哪些文件格式?一般来说,图片和照片是同一件事,会被划分为一个 Image 元素。你是否可以通过完全不进行OCR来实现你想要的功能?只有图片会被进行OCR。
Image
wxclj1h52#
早上好@scanny。我打算就这个问题做出贡献。根据投稿指南,我已经提出了这个问题。这个问题的文件格式为pdf和图像(.jpg, .png)。我意识到它们最终调用相同的ocr功能。我们有一个要求,在决定是否需要ocr之前,需要对从pdf文档中提取的图像进行分类。我们还可能使用另一个ocr工具,而不是目前由unstructured提供的工具。因此,我认为关闭某些元素类型的ocr功能是有帮助的。我之所以区分图片和图像,是因为我意识到一个.png文件会经过unstructured_models并将"image"元素输出为"picture"。最后,你提到“只有图像会被ocr”-所以目前,是否有一个选项可以关闭嵌入在pdf中的图像的ocr?谢谢
mctunoxg3#
目前,无法关闭嵌入在PDF中的图像的OCR功能。
q7solyqu4#
感谢@christinestraub@scanny
4条答案
按热度按时间rn0zuynd1#
@beez2022 你能提供一个示例文档吗?这个问题适用于哪些文件格式?
一般来说,图片和照片是同一件事,会被划分为一个
Image
元素。你是否可以通过完全不进行OCR来实现你想要的功能?只有图片会被进行OCR。
wxclj1h52#
早上好@scanny。我打算就这个问题做出贡献。根据投稿指南,我已经提出了这个问题。这个问题的文件格式为pdf和图像(.jpg, .png)。我意识到它们最终调用相同的ocr功能。我们有一个要求,在决定是否需要ocr之前,需要对从pdf文档中提取的图像进行分类。我们还可能使用另一个ocr工具,而不是目前由unstructured提供的工具。因此,我认为关闭某些元素类型的ocr功能是有帮助的。
我之所以区分图片和图像,是因为我意识到一个.png文件会经过unstructured_models并将"image"元素输出为"picture"。
最后,你提到“只有图像会被ocr”-所以目前,是否有一个选项可以关闭嵌入在pdf中的图像的ocr?
谢谢
mctunoxg3#
目前,无法关闭嵌入在PDF中的图像的OCR功能。
q7solyqu4#
感谢@christinestraub@scanny