unilm 功能请求:TR-OCR中的文本位置检测

mqkwyuun  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(38)

功能请求:TR-OCR中的文本位置检测

我正在使用的模型 TrOCR

描述:

我一直在使用TR-OCR进行图像中文本的识别,它表现得很好。然而,对于某些用例,不仅要识别文本,还要确定它们在图像中的位置。这个功能在文档数字化和分析中非常有用,因为文本的位置可能具有重要意义。

提议的解决方案:

  • 将TR-OCR API扩展到包括一个额外的方法/参数,该方法/参数可以启用文本位置检测。
  • 该方法/参数可以返回每个检测到的文本元素(字符、单词、句子级别)的边界框坐标(X,Y,Width,Height)。

使用案例:

这个功能在各种场景中都非常有用,例如:

  • 文档数字化,其中文本的位置对于理解文档结构至关重要。
  • 图像分析,其中文本位置可以提供额外的上下文。

其他信息:

我愿意为此做出贡献。
我尝试了很多次搜索,但也许我漏掉了什么。如果是这样,请告诉我如何实现它。
您正在编辑的内容已更改。请复制您的编辑并刷新页面。

任务

Beta Give feedback
目前没有正在跟踪的任务。

hxzsmxv2

hxzsmxv21#

我也遇到了这个问题,如果能提供一些协调信息会非常有用。

相关问题