如何在python中阅读pdf?[duplicate]

edqdpe6u  于 2022-12-21  发布在  Python
关注(0)|答案(2)|浏览(160)
    • 此问题在此处已有答案**:

(32个答案)
5年前关闭。

    • 如何在python中阅读pdf?***我知道一种将其转换为文本的方法 *,但我想直接从pdf中阅读内容。

有人能解释一下python中哪个模块最适合pdf提取吗

cnh2zyt3

cnh2zyt31#

您可以使用PyPDF2软件包

# install PyPDF2
pip install PyPDF2

安装后:

# importing all the required modules
import PyPDF2

# creating a pdf reader object
reader = PyPDF2.PdfReader('example.pdf')

# print the number of pages in pdf file
print(len(reader.pages))

# print the text of the first page
print(reader.pages[0].extract_text())

沿着the documentation走。

e3bfsja2

e3bfsja22#

可以在python中使用textract模块

T提取

用于安装

pip install textract

阅读pdf

import textract
text = textract.process('path/to/pdf/file', method='pdfminer')

详情**Textract**

相关问题