我被我的客户雇佣来创建一个android应用程序,它将使用tesseract对图像执行ocr,将图像转换为可搜索的pdf。
目前我能够提取文本图像使用此代码;
String extractText(String imagePath)
{
dataPath= Environment.getExternalStorageDirectory().toString() + "/Android/data/" + appContext.getPackageName() + "/";
File tessdata = new File(dataPath);
if (!tessdata.exists() || !tessdata.isDirectory())
{
throw new IllegalArgumentException("Data path must contain subfolder tessdata!");
}
Bitmap image= BitmapFactory.decodeFile(imagePath);
TessBaseAPI baseApi = new TessBaseAPI();
baseApi.init(dataPath, "eng");
baseApi.setImage(image);
String recognizedText = baseApi.getUTF8Text();
baseApi.end();
return recognizedText;
}
上面的代码帮助我将图像上的文本作为字符串准确地获取,但我不知道如何使用此文本创建可搜索的pdf。
1条答案
按热度按时间bakd9h0s1#
getUTF8Text
仅返回纯文本。你需要使用TessPDFRenderer
pdf输出的api。https://github.com/tesseract-ocr/tesseract/tree/master/src/api