我有一个PDF文档,我试图解析成文本。该文件是非营利财务文件的公共领域的一部分,可以安全地共享。
Sample page on Google Storage
我尝试使用一个名为pdf-parse的常见NPM包解析文档,但它不输出任何文本。
JavaScript代码:
const fs = require('fs');
const pdf = require('pdf-parse');
let dataBuffer = fs.readFileSync('./sample-one-page.pdf');
pdf(dataBuffer).then(function(data) {
console.log(data.numpages);
console.log(data.numrender);
console.log(data.info);
console.log(data.metadata);
console.log(data.version);
console.log(data.text);
});
该脚本准确地检测页面的数量和所有其他元数据,但它不解析文本。运行此脚本的输出如下所示。
1
1
{
PDFFormatVersion: '1.3',
IsAcroFormPresent: false,
IsXFAPresent: false,
Title: 'PDF TIFF Wrapper',
Author: 'Awesome Donald',
Creator: 'ServiceFileCopy',
Producer: 'macOS Version 13.3.1 (Build 22E261) Quartz PDFContext',
CreationDate: "D:20230504152855Z00'00'",
ModDate: "D:20230504152855Z00'00'"
}
null
1.10.100
我已经验证了该脚本适用于其他PDF文档,并且我还使用Python库进行PDF解析(https://pypi.org/project/pypdf/)。
此文档是否存在阻止文本提取的内容?
1条答案
按热度按时间j0pj023g1#
这只是一个PDF Package 周围的TIFF图像。直到戴夫指出我才意识到。