功能请求:TR-OCR中的文本位置检测
我正在使用的模型 TrOCR
描述:
我一直在使用TR-OCR进行图像中文本的识别,它表现得很好。然而,对于某些用例,不仅要识别文本,还要确定它们在图像中的位置。这个功能在文档数字化和分析中非常有用,因为文本的位置可能具有重要意义。
提议的解决方案:
- 将TR-OCR API扩展到包括一个额外的方法/参数,该方法/参数可以启用文本位置检测。
- 该方法/参数可以返回每个检测到的文本元素(字符、单词、句子级别)的边界框坐标(X,Y,Width,Height)。
使用案例:
这个功能在各种场景中都非常有用,例如:
- 文档数字化,其中文本的位置对于理解文档结构至关重要。
- 图像分析,其中文本位置可以提供额外的上下文。
其他信息:
我愿意为此做出贡献。
我尝试了很多次搜索,但也许我漏掉了什么。如果是这样,请告诉我如何实现它。
您正在编辑的内容已更改。请复制您的编辑并刷新页面。
任务
Beta Give feedback
目前没有正在跟踪的任务。
1条答案
按热度按时间hxzsmxv21#
我也遇到了这个问题,如果能提供一些协调信息会非常有用。