为什么tesseract在读取旁边的数字时会忽略整个数字

8yoxcaq7  于 2023-02-10  发布在  其他
关注(0)|答案(1)|浏览(149)

这对我来说是个难题。
在下面的图片中,无论我做什么,R中的tesseract包完全忽略了第四行第二次出现的1(意思是,它读作1而不是11)。这里的图像已经过预处理--通过nn进行了放大、清理和二值化。即使我只是对源图像进行了轻微的预处理,也是一样的。
裁剪右边的噪音没有帮助,更改tessedit_pageseg_mode选项只会让事情变得更糟,但对这个特定的问题没有帮助。
1到底去哪了?为了我的理智起见,我需要知道。

vnzz0bqm

vnzz0bqm1#

在等待R编译tesseract包的同时,我测试了命令行版本:

$ tesseract --version
tesseract 4.1.1
  leptonica-1.79.0 #...etc
$ tesseract ocr_test.png  test
obec TREBOHOSTICE 2021
okres Strakonice, Jihocesky kraj

Poéet osob starSich 15 let 274
Poéet osob v exekuci 11
Podil osob v exekuci 4,01 %
Celkovy pocet exekuci 106
Prumérny poéet exekuci na osobu 9.6
Z toho:

podil (pocet) osob s 1 — 9 exekucemi 45% (5)
podil (pocet) osob s 10 a vice exekucemi 55% (6)

PM. 2

CLI输出看起来不错。可能与系统上安装的leptonica的底层版本有关
\
R tesseract包和Linux包的干净编译:

#Linux command line
$ sudo apt install libpoppler-cpp-dev libtesseract-dev libleptonica-dev

#In R
install.packages("tesseract")  # version 5.1.0
library(tesseract)
ocr(file.choose())

第4行11的输出看起来不错:

obec TREBOHOSTICE 2021
okres Strakonice, Jihocesky kraj

Poéet osob starSich 15 let 274
Poéet osob v exekuci 11
Podil osob v exekuci 401% |
Celkovy pocet exekuci 106
Prumérny poéet exekuci na osobu 9.6
Z toho: on
podil (pocet) osob s 1 — 9 exekucemi 45% (5) ;
podil (pocet) osob s 10 a vice exekucemi 55% (6) >

相关问题