unilm 功能请求：TR-OCR中的文本位置检测

mqkwyuun 于 2个月前发布在其他

关注(0)|答案(1)|浏览(38)

功能请求：TR-OCR中的文本位置检测

我正在使用的模型 TrOCR

描述：

我一直在使用TR-OCR进行图像中文本的识别，它表现得很好。然而，对于某些用例，不仅要识别文本，还要确定它们在图像中的位置。这个功能在文档数字化和分析中非常有用，因为文本的位置可能具有重要意义。

提议的解决方案：

将TR-OCR API扩展到包括一个额外的方法/参数，该方法/参数可以启用文本位置检测。
该方法/参数可以返回每个检测到的文本元素(字符、单词、句子级别)的边界框坐标(X,Y,Width,Height)。

使用案例：

这个功能在各种场景中都非常有用，例如：

文档数字化，其中文本的位置对于理解文档结构至关重要。
图像分析，其中文本位置可以提供额外的上下文。

其他信息：

我愿意为此做出贡献。
我尝试了很多次搜索，但也许我漏掉了什么。如果是这样，请告诉我如何实现它。
您正在编辑的内容已更改。请复制您的编辑并刷新页面。

任务

Beta Give feedback
目前没有正在跟踪的任务。

来源：https://github.com/microsoft/unilm/issues/1341

1条答案

按热度按时间

我也遇到了这个问题，如果能提供一些协调信息会非常有用。

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前