使用python命名具有唯一名称的单个pdf文件

6tr1vspr 于 2021-09-08 发布在 Java

关注(0)|答案(2)|浏览(464)

我在一个地方工作，我的任务是扫描成吨的指令，以便它们可以数字化（大约10万页）。我拥有的扫描仪一次可以扫描50-60页a4纸，并将其保存为一个“大”pdf文件。问题是，我的老板希望每一页都是一个pdf文件，而且它必须被命名为里面写的页码。不仅仅是1，因为它是文档的第一页。这些指令在编号中跳转，所以不那么容易。
我需要帮助的是：
1：如何从pdf中检索页码
2：如何多次执行此操作（针对每个pdf文档）？
我已经有我的程序设置创建一个pdf每页。。。我希望有人能帮忙：）

python pdf

来源：https://stackoverflow.com/questions/68313703/naming-individual-pdf-files-with-unique-name-using-python

2条答案

按热度按时间

vatpfxk51#

要获取页码，可以使用opencv提取页面中编号所在的部分，并使用pytesseract读取该部分（当然，如果页码不总是在同一个位置，它就不起作用）。
否则，如果一次放入扫描仪的50-60页在页码中具有相关性（例如，以良好顺序排列的第150页到200页），则您可以在扫描一批页面时指定起始页码，并在每次读取页面时增加该页码。
如果有帮助，请告诉我。

赞(0）回复(0）举报 2021-09-08

vmpqdwk32#

我不知道答案，但希望这里的答案有帮助：用pypdf从文档中检索页码

赞(0）回复(0）举报 2021-09-08