你的需求是否与问题相关?请描述。
我目前正在进行一个使用 partition_pdf
和 hi_res
策略的项目。除了这个,项目还需要将 PDF 的每一页提取为图像。我注意到在代码中,partition_pdf
和 hi_res
最终会触发,每一页的 PDF 图像已经在 pdf2image
中被提取。与其分别提取每一页的图像,理想情况下是能够利用这些在 with
块之后被丢弃的临时图像。
描述你希望的解决方案
理想的情况是,partition_pdf
函数应该有一个选项 extract_pdf_page_images
。当这个选项设置为 True
时,而不是使用 tempfile.TemporaryDirectory()
为图像创建临时目录,图像将以某种方式返回并可供使用。
描述你考虑过的替代方案
另外,我可以尝试以下方法:
- 分别处理,这样可以避免重复工作。不幸的是,
pdf2image
可能相当慢。 - 对代码进行猴子补丁,这是一个临时的解决方法,但可能需要锁定使用的
unstructured
版本,并且不是一个可行的长期策略。 - 分支非结构化的代码并为我的用途实现修复,类似于猴子补丁,不是可行的长期策略。
- 使用不是
pdf2image
的其他库,它更快,所以重复工作不是大问题,这已经探索过,并且由于各种原因不可行。
附加上下文
我想补充一点,我很愿意自己为这个功能创建一个拉取请求。主要是好奇人们对这个问题的看法以及如果我要创建一个 PR 的话,对于这个问题的正确方法有什么想法。
1条答案
按热度按时间jyztefdp1#
这个问题是重复的: