我在一个地方工作,我的任务是扫描成吨的指令,以便它们可以数字化(大约10万页)。我拥有的扫描仪一次可以扫描50-60页a4纸,并将其保存为一个“大”pdf文件。问题是,我的老板希望每一页都是一个pdf文件,而且它必须被命名为里面写的页码。不仅仅是1,因为它是文档的第一页。这些指令在编号中跳转,所以不那么容易。我需要帮助的是:1:如何从pdf中检索页码2:如何多次执行此操作(针对每个pdf文档)?我已经有我的程序设置创建一个pdf每页。。。我希望有人能帮忙:)
vatpfxk51#
要获取页码,可以使用opencv提取页面中编号所在的部分,并使用pytesseract读取该部分(当然,如果页码不总是在同一个位置,它就不起作用)。否则,如果一次放入扫描仪的50-60页在页码中具有相关性(例如,以良好顺序排列的第150页到200页),则您可以在扫描一批页面时指定起始页码,并在每次读取页面时增加该页码。如果有帮助,请告诉我。
vmpqdwk32#
我不知道答案,但希望这里的答案有帮助:用pypdf从文档中检索页码
2条答案
按热度按时间vatpfxk51#
要获取页码,可以使用opencv提取页面中编号所在的部分,并使用pytesseract读取该部分(当然,如果页码不总是在同一个位置,它就不起作用)。
否则,如果一次放入扫描仪的50-60页在页码中具有相关性(例如,以良好顺序排列的第150页到200页),则您可以在扫描一批页面时指定起始页码,并在每次读取页面时增加该页码。
如果有帮助,请告诉我。
vmpqdwk32#
我不知道答案,但希望这里的答案有帮助:用pypdf从文档中检索页码