如何使用Python从PDF中提取特定文本?
例如:Pdf contain(名称:Python,颜色:在这种情况下,我想提取“Name:”之后的任何文本,而不提取“Python”和“Color”之间的“,”之后的任何文本。
任何帮助都很感激。
import PyPDF2
pdf = open("C:\\Users\\ME\\Desktop\\test.pdf)
reader = PyPDF2.PdfReader(pdf)
page = reader.pages[0]
print(page.extract_text())
这将提取整个PDF。
2条答案
按热度按时间nr9pn0ug1#
如果你的库返回一个字符串,你可以使用正则表达式来找到你想要的输出:
hpcdzsge2#
使用PyMuPDF包尝试此操作。