你好,在使用自动分区对PDF进行分区时,当PDF解析器回退到OCR策略时,是否有可能获取OCR元数据(质量、是否使用等)?
vojdkbi01#
你好@hakankaraoguz你能分享一下你正在尝试的代码吗?以及关于你想获取的OCR元数据的更多详细信息?
iovurdzv2#
你好@christinestraub根据documentation,如果使用auto策略,当非结构化数据回退到OCR策略时,元素元数据中没有指示器。然而,在这里我可以看到OCR置信度是在pytesseract中提取的。我希望在元素元数据中同时显示OCR置信度信息和策略标志,以便在解析阶段之后过滤掉低质量文本。
auto
pytesseract
20jt8wwn3#
关于这个有任何更新吗?
hxzsmxv24#
你尝试过使用hi_res策略吗?对于你的情况,detection_class_prob元数据字段是否无法正常工作?
hi_res
detection_class_prob
vzgqcmou5#
我会尝试一下,但是根据这个Articledetection_class_prob,它是关于PDF中提取的章节(表格、标题等)的类信心。如果算法回退到OCR,我更感兴趣的是OCR质量结果。谢谢@christinestraub
5条答案
按热度按时间vojdkbi01#
你好@hakankaraoguz
你能分享一下你正在尝试的代码吗?以及关于你想获取的OCR元数据的更多详细信息?
iovurdzv2#
你好@christinestraub
根据documentation,如果使用
auto
策略,当非结构化数据回退到OCR策略时,元素元数据中没有指示器。然而,在这里我可以看到OCR置信度是在pytesseract
中提取的。我希望在元素元数据中同时显示OCR置信度信息和策略标志,以便在解析阶段之后过滤掉低质量文本。20jt8wwn3#
关于这个有任何更新吗?
hxzsmxv24#
你尝试过使用
hi_res
策略吗?对于你的情况,detection_class_prob
元数据字段是否无法正常工作?vzgqcmou5#
我会尝试一下,但是根据这个Article
detection_class_prob
,它是关于PDF中提取的章节(表格、标题等)的类信心。如果算法回退到OCR,我更感兴趣的是OCR质量结果。谢谢@christinestraub