我正尝试使用tesseract将图像转换为可搜索的pdf格式。下面的命令行选项对我来说很好用。
探索java中的类似选项。但不确定传入参数的内容。以下是我的java代码
import java.io.File;
import java.util.Arrays;
import java.util.List;
import net.sf.saxon.expr.instruct.ValueOf;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class Mask2 {
public static void main(String[] args) {
File image = new File("D:\\ML\\Java\\img3.PNG");
Tesseract tesseract = new Tesseract();
tesseract.setDatapath("C://Program Files//Tesseract-OCR//tessdata");
tesseract.setLanguage("eng");
tesseract.setPageSegMode(1);
tesseract.setOcrEngineMode(1);
try {
// Not sure what to pass in arguments
tesseract.createDocumentsWithResults()
} catch (TesseractException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
任何建议/解决方案都会很有帮助。
1条答案
按热度按时间nzk0hqpo1#
可以创建如下所示的renderFormats列表(可以添加其他格式)
然后您可以传递输入文件名(PDF或IMG)的路径、不带扩展名的输出文件名的路径以及要使用的渲染格式。
再见!