NodeJS PDF解析包无法解析此PDF的哪些内容?

tzcvj98z  于 2023-05-06  发布在  Node.js
关注(0)|答案(1)|浏览(175)

我有一个PDF文档,我试图解析成文本。该文件是非营利财务文件的公共领域的一部分,可以安全地共享。
Sample page on Google Storage
我尝试使用一个名为pdf-parse的常见NPM包解析文档,但它不输出任何文本。
JavaScript代码:

const fs = require('fs');
const pdf = require('pdf-parse');

let dataBuffer = fs.readFileSync('./sample-one-page.pdf');

pdf(dataBuffer).then(function(data) {
    console.log(data.numpages);
    console.log(data.numrender);
    console.log(data.info);
    console.log(data.metadata); 
    console.log(data.version);
    console.log(data.text); 
});

该脚本准确地检测页面的数量和所有其他元数据,但它不解析文本。运行此脚本的输出如下所示。

1
1
{
  PDFFormatVersion: '1.3',
  IsAcroFormPresent: false,
  IsXFAPresent: false,
  Title: 'PDF TIFF Wrapper',
  Author: 'Awesome Donald',
  Creator: 'ServiceFileCopy',
  Producer: 'macOS Version 13.3.1 (Build 22E261) Quartz PDFContext',
  CreationDate: "D:20230504152855Z00'00'",
  ModDate: "D:20230504152855Z00'00'"
}
null
1.10.100

我已经验证了该脚本适用于其他PDF文档,并且我还使用Python库进行PDF解析(https://pypi.org/project/pypdf/)。
此文档是否存在阻止文本提取的内容?

j0pj023g

j0pj023g1#

这只是一个PDF Package 周围的TIFF图像。直到戴夫指出我才意识到。

相关问题