Tesseract图像到可搜索的pdf在java中

yws3nbqq 于 2023-02-02 发布在 Java

关注(0)|答案(1)|浏览(168)

我正尝试使用tesseract将图像转换为可搜索的pdf格式。下面的命令行选项对我来说很好用。

探索java中的类似选项。但不确定传入参数的内容。以下是我的java代码

import java.io.File;
import java.util.Arrays;
import java.util.List;

import net.sf.saxon.expr.instruct.ValueOf;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class Mask2 {

    public static void main(String[] args) {

        File image = new File("D:\\ML\\Java\\img3.PNG");
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("C://Program Files//Tesseract-OCR//tessdata");
        tesseract.setLanguage("eng");
        tesseract.setPageSegMode(1);
        tesseract.setOcrEngineMode(1);
        try {

       // Not sure what to pass in arguments
        tesseract.createDocumentsWithResults()
            
            
        } catch (TesseractException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

任何建议/解决方案都会很有帮助。

Java

来源：https://stackoverflow.com/questions/71420515/tesseract-image-to-searchable-pdf-in-java

1条答案

按热度按时间

nzk0hqpo1#

可以创建如下所示的renderFormats列表（可以添加其他格式）

List<RenderedFormat> renderFormats = new ArrayList<RenderedFormat>();
                    renderFormats.add(RenderedFormat.PDF);

然后您可以传递输入文件名（PDF或IMG）的路径、不带扩展名的输出文件名的路径以及要使用的渲染格式。

tesseract.createDocuments("a/b/c/inputfile.PNG", "a/b/c/outputfile", renderFormats);

再见！

赞(0）回复(0）举报 2023-02-02

我来回答

Tesseract图像到可搜索的pdf在java中

1条答案

相关问题

热门标签

最新问答