unstructured OCR元数据

hsvhsicv  于 5个月前  发布在  其他
关注(0)|答案(5)|浏览(90)

你好,
在使用自动分区对PDF进行分区时,当PDF解析器回退到OCR策略时,是否有可能获取OCR元数据(质量、是否使用等)?

vojdkbi0

vojdkbi01#

你好@hakankaraoguz
你能分享一下你正在尝试的代码吗?以及关于你想获取的OCR元数据的更多详细信息?

iovurdzv

iovurdzv2#

你好@christinestraub
根据documentation,如果使用auto策略,当非结构化数据回退到OCR策略时,元素元数据中没有指示器。然而,在这里我可以看到OCR置信度是在pytesseract中提取的。我希望在元素元数据中同时显示OCR置信度信息和策略标志,以便在解析阶段之后过滤掉低质量文本。

20jt8wwn

20jt8wwn3#

关于这个有任何更新吗?

hxzsmxv2

hxzsmxv24#

你尝试过使用hi_res策略吗?对于你的情况,detection_class_prob元数据字段是否无法正常工作?

vzgqcmou

vzgqcmou5#

我会尝试一下,但是根据这个Articledetection_class_prob,它是关于PDF中提取的章节(表格、标题等)的类信心。如果算法回退到OCR,我更感兴趣的是OCR质量结果。谢谢@christinestraub

相关问题