这行代码从一个PDF中提取第667-795页的所有表格,并将它们保存到一个充满表格的数组中。
tablesSys = cam.read_pdf("840Dsl_sysvar_lists_man_0122_de-DE_wichtig.pdf",
pages = "667-795",
process_threads = 100000,
line_scale = 100,
strip_text ='.\n'
)
tablesSys = np.array(tablesSys)
数组看起来像这样。
以后我不得不多次使用这个数组。
现在我在jupyter实验室工作,每当我的内核离线,或者几个小时后我重新开始工作,或者当我重新启动内核等,我必须调用这行代码来获取我的tablesys,这需要超过11分钟的时间来加载。
既然pdf文件一点都没有改变,我想我可以找到一种方法,只加载一次代码,然后保存数组,这样以后我就可以不用加载代码就可以使用数组了。
希望能找到解决办法:)))
2条答案
按热度按时间mv1qrgav1#
尝试使用pickle格式将pickle文件保存到文件系统https://docs.python.org/3/library/pickle.html
这里有一个高级示例,我没有运行这段代码,但它应该给予你一个想法。
lvjbypge2#
在玩耍