NodeJS PDF解析包无法解析此PDF的哪些内容？

tzcvj98z 于 2023-05-06 发布在 Node.js

关注(0)|答案(1)|浏览(175)

我有一个PDF文档，我试图解析成文本。该文件是非营利财务文件的公共领域的一部分，可以安全地共享。
Sample page on Google Storage
我尝试使用一个名为pdf-parse的常见NPM包解析文档，但它不输出任何文本。
JavaScript代码：

const fs = require('fs');
const pdf = require('pdf-parse');

let dataBuffer = fs.readFileSync('./sample-one-page.pdf');

pdf(dataBuffer).then(function(data) {
    console.log(data.numpages);
    console.log(data.numrender);
    console.log(data.info);
    console.log(data.metadata); 
    console.log(data.version);
    console.log(data.text); 
});

该脚本准确地检测页面的数量和所有其他元数据，但它不解析文本。运行此脚本的输出如下所示。

1
1
{
  PDFFormatVersion: '1.3',
  IsAcroFormPresent: false,
  IsXFAPresent: false,
  Title: 'PDF TIFF Wrapper',
  Author: 'Awesome Donald',
  Creator: 'ServiceFileCopy',
  Producer: 'macOS Version 13.3.1 (Build 22E261) Quartz PDFContext',
  CreationDate: "D:20230504152855Z00'00'",
  ModDate: "D:20230504152855Z00'00'"
}
null
1.10.100

我已经验证了该脚本适用于其他PDF文档，并且我还使用Python库进行PDF解析（https://pypi.org/project/pypdf/）。
此文档是否存在阻止文本提取的内容？

node.js

来源：https://stackoverflow.com/questions/76175073/what-cant-this-pdf-be-parsed-by-pdf-parsing-packages