Output
我想使用PDF文件,特别是表格。我把这个编码
import pandas as pd
import numpy as np
import tabula
from tabula import read_pdf
tab= tabula.read_pdf('..\PDFs\Ala.pdf',encoding='latin-1', pages ='all')
tab
但是我得到了一个值列表,像这样:
[ Nombres Edad Ciudad
0 Noelia 20 Lima
1 Michelie 45 Lima
2 Ximena 18 Lima
3 Miguel 43 Lima]
我无法分析它,因为它不是一个数据框。这只是一个例子,真实的PDF文件包含文本和几个页面之间的表格
请问有没有人可以帮我解决这个问题?
2条答案
按热度按时间lh80um4z1#
tabula
应该返回一个Pandas字符串列表,每个字符串对应PDF中的一个表。您可以显示(并使用它们)如下:wqnecbli2#
tabula返回Pandas DataFrame列表。但是我们可以使用下面的语句将这个列表转换为Pandas DataFrame。