Tesseract图像到可搜索的pdf在java中

yws3nbqq  于 2023-02-02  发布在  Java
关注(0)|答案(1)|浏览(168)

我正尝试使用tesseract将图像转换为可搜索的pdf格式。下面的命令行选项对我来说很好用。

探索java中的类似选项。但不确定传入参数的内容。以下是我的java代码

import java.io.File;
import java.util.Arrays;
import java.util.List;

import net.sf.saxon.expr.instruct.ValueOf;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class Mask2 {

    public static void main(String[] args) {

        File image = new File("D:\\ML\\Java\\img3.PNG");
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("C://Program Files//Tesseract-OCR//tessdata");
        tesseract.setLanguage("eng");
        tesseract.setPageSegMode(1);
        tesseract.setOcrEngineMode(1);
        try {

       // Not sure what to pass in arguments
        tesseract.createDocumentsWithResults()
            
            
        } catch (TesseractException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

任何建议/解决方案都会很有帮助。

nzk0hqpo

nzk0hqpo1#

可以创建如下所示的renderFormats列表(可以添加其他格式)

List<RenderedFormat> renderFormats = new ArrayList<RenderedFormat>();
                    renderFormats.add(RenderedFormat.PDF);

然后您可以传递输入文件名(PDF或IMG)的路径、不带扩展名的输出文件名的路径以及要使用的渲染格式。

tesseract.createDocuments("a/b/c/inputfile.PNG", "a/b/c/outputfile", renderFormats);

再见!

相关问题