EasyOCR [功能请求]分层输出(例如带有段落)

qmb5sa22  于 3个月前  发布在  其他
关注(0)|答案(3)|浏览(36)

我再次提出一个建议😄,
当我尝试使用paragraph=True时,我发现结果完全合并了检测到的文本和框 - 无法看到任何方法可以将它们Map回原始单词本身。
对于应用布局感知的NLP模型(例如LayoutLMDocFormer等),词级边界框非常有用。就我目前所知,如果用户想要生成词级和段落级的结果,他们需要运行EasyOCR两次 - 并且无法在两者之间Map对象?
如果能有一种分层输出选项,可以在不丢失低级信息的情况下对检测结果进行分组,那将是非常棒的。例如,我相信Tesseract现在已经实现了这一点,尽管我不能说他们的TSV记录结构很容易上手!嵌套对象可能更容易迭代。

披露

我目前在AWS工作(但帮助我们的客户构建解决方案,而不是构建自己的AWS服务),也是Amazon Textract的常规用户...所以我不是打算以任何方式不适当地引导你们的设计,但可能会受到我熟悉的使用的偏见影响!🙇

kpbwa7wx

kpbwa7wx1#

听起来不错。感谢你的建议。我们会添加这个功能。

55ooxyrt

55ooxyrt2#

你好,并对仓库表示赞赏!
关于这个功能有任何进展吗?

zfycwa2u

zfycwa2u3#

@emanuelevivoli,这可能是目前解决这个问题最快的方法。在获取结果后,请在自己的管道中添加get_paragraph()函数(在utils.py中)。如果您更改了参数,请确保为其设置默认值。

相关问题