pdfbox-pdf转换为灰度后增大大小

ryevplcw  于 2021-07-12  发布在  Java
关注(0)|答案(1)|浏览(447)

我需要将扫描的pdf转换为灰度pdf。我找到了两个解决办法。
第一个是使用 renderImage ```
private void convertToGray() throws IOException {
File pdfFile = new File(PATH);
try (PDDocument originalPdf = PDDocument.load(pdfFile);
PDDocument doc = new PDDocument()) {
LOGGER.info("Current heap after loading file: {}", Runtime.getRuntime().totalMemory());
PDFRenderer pdfRenderer = new PDFRenderer(originalPdf);
for (int pageNum = 0; pageNum < originalPdf.getNumberOfPages(); pageNum++) {
// PDImageXObject pdImage = LosslessFactory.createFromImage(doc, bufferedImage);
BufferedImage grayImage = pdfRenderer.renderImageWithDPI(pageNum, 300F, ImageType.GRAY);
PDImageXObject pdImage = JPEGFactory.createFromImage(doc, grayImage);
float pageWight = originalPdf.getPage(pageNum).getMediaBox().getWidth();
float pageHeight = originalPdf.getPage(pageNum).getMediaBox().getHeight();
PDPage page = new PDPage(new PDRectangle(pageWight, pageHeight));
doc.addPage(page);
try (PDPageContentStream contentStream = new PDPageContentStream(doc, page)) {
contentStream.drawImage(pdImage, 0F, 0F, pageWight, pageHeight);
}
}
doc.save(NEW_PATH);
}
}

但这会导致文件的大小增加(因为有些PDF的dpi小于300)。
第二种方法是用灰度模拟代替已有的图像

private void convertByImageToGray() throws IOException {
File pdfFile = new File(PATH);
try (PDDocument document = PDDocument.load(pdfFile)) {
List objects = document.getDocument().getObjectsByType(COSName.IMAGE);
for (COSObject object : objects) {
LOGGER.info("Class: {}; {}", object.getClass(), object.toString());
}
for (int pageNum = 0; pageNum < document.getNumberOfPages(); pageNum++) {
PDPage page = document.getPage(pageNum);
replaceImage(document, page);
}
document.save(NEW_PATH);
}
}

private void replaceImage(PDDocument document, PDPage page) throws IOException {
PDResources resources = page.getResources();
Iterable xObjectNames = resources.getXObjectNames();
if (xObjectNames != null) {
for (COSName xObjectName : xObjectNames) {
PDXObject object = resources.getXObject(xObjectName);
if (object instanceof PDImageXObject) {
PDImageXObject img1 = (PDImageXObject) object;
BufferedImage bufferedImage1 = img1.getImage();
BufferedImage grayBufferedImage = convertBufferedImageToGray(bufferedImage1);
// PDImageXObject grayImage = JPEGFactory.createFromImage(document, grayBufferedImage);
PDImageXObject grayImage = LosslessFactory.createFromImage(document, grayBufferedImage);
resources.put(xObjectName, grayImage);
}
}
}
}

private static BufferedImage convertBufferedImageToGray(BufferedImage sourceImg) {
ColorSpace cs = ColorSpace.getInstance(ColorSpace.CS_GRAY);
ColorConvertOp op = new ColorConvertOp(sourceImg.getColorModel().getColorSpace(), cs, null);
op.filter(sourceImg, sourceImg);
return sourceImg;
}

但仍有一些文件的大小增加了3倍(即使它们已经是灰度的;有趣的是这个案子 `JPEGFactory` 生成的文件比 `LosslessFactory` ). 灰度pdf中的所有图像都与原始图像大小相同。我不明白为什么。
也许有更好的方法使灰度pdf具有可预测的大小(除了ghostscript)?
更新:我刚刚意识到问题在于如何从图像创建pdf。它不压缩以及。
例如,我有一个小于1MB的伪单页扫描文件。但是如果我从它那里得到图像(通过acrobat reader直接复制到绘图,或者通过上面的代码),它的大小大约是8-10 mb,具体取决于方法。如果我从这张图片创建新的pdf,它几乎没有被压缩。下面是示例代码:

File pdfFile = new File(FULL_FILE);
try (PDDocument document = PDDocument.load(pdfFile)) {
PDPage page = new PDPage();
document.addPage(page);
PDImageXObject pdImage = PDImageXObject.createFromFile("example.png", document);
try (PDPageContentStream contents = new PDPageContentStream(document, page)) {
contents.drawImage(pdImage, 0F, 0F);
}
document.save(FULL_FILE_NEW);
}

col17t5w

col17t5w1#

是的,与jpegfactory相比,losslessfactory生成的文件更小
在下面的链接中,有不同的方法来尝试实现相同的目标。总的来说,最佳质量的灰度图像来自选项6,但这绝不是最快的(我自己使用选项4)。还提供了比较供您选择
此链接包含将彩色图像转换为黑色的可能方法。这对我帮助很大。让我知道它是否适用于你,并批准我的答案,如果它有帮助。

相关问题