unstructured OCR元数据

hsvhsicv 于 2个月前发布在其他

关注(0)|答案(5)|浏览(41)

你好，
在使用自动分区对PDF进行分区时，当PDF解析器回退到OCR策略时，是否有可能获取OCR元数据(质量、是否使用等)?

unstructured

来源：https://github.com/Unstructured-IO/unstructured/issues/2568

5条答案

按热度按时间

vojdkbi01#

你好@hakankaraoguz
你能分享一下你正在尝试的代码吗？以及关于你想获取的OCR元数据的更多详细信息？

赞(0）回复(0）举报 2个月前

iovurdzv2#

你好@christinestraub
根据documentation,如果使用auto策略，当非结构化数据回退到OCR策略时，元素元数据中没有指示器。然而，在这里我可以看到OCR置信度是在pytesseract中提取的。我希望在元素元数据中同时显示OCR置信度信息和策略标志，以便在解析阶段之后过滤掉低质量文本。

赞(0）回复(0）举报 2个月前

20jt8wwn3#

关于这个有任何更新吗？

赞(0）回复(0）举报 2个月前

hxzsmxv24#

你尝试过使用hi_res策略吗？对于你的情况，detection_class_prob元数据字段是否无法正常工作？

赞(0）回复(0）举报 2个月前

vzgqcmou5#

我会尝试一下，但是根据这个Articledetection_class_prob,它是关于PDF中提取的章节(表格、标题等)的类信心。如果算法回退到OCR,我更感兴趣的是OCR质量结果。谢谢@christinestraub

赞(0）回复(0）举报 2个月前