unstructured feat/extract_pdf_page_images

uyto3xhc  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(47)

你的需求是否与问题相关?请描述。

我目前正在进行一个使用 partition_pdfhi_res 策略的项目。除了这个,项目还需要将 PDF 的每一页提取为图像。我注意到在代码中,partition_pdfhi_res 最终会触发,每一页的 PDF 图像已经在 pdf2image 中被提取。与其分别提取每一页的图像,理想情况下是能够利用这些在 with 块之后被丢弃的临时图像。

描述你希望的解决方案

理想的情况是,partition_pdf 函数应该有一个选项 extract_pdf_page_images。当这个选项设置为 True 时,而不是使用 tempfile.TemporaryDirectory() 为图像创建临时目录,图像将以某种方式返回并可供使用。

描述你考虑过的替代方案

另外,我可以尝试以下方法:

  1. 分别处理,这样可以避免重复工作。不幸的是,pdf2image 可能相当慢。
  2. 对代码进行猴子补丁,这是一个临时的解决方法,但可能需要锁定使用的 unstructured 版本,并且不是一个可行的长期策略。
  3. 分支非结构化的代码并为我的用途实现修复,类似于猴子补丁,不是可行的长期策略。
  4. 使用不是 pdf2image 的其他库,它更快,所以重复工作不是大问题,这已经探索过,并且由于各种原因不可行。

附加上下文

我想补充一点,我很愿意自己为这个功能创建一个拉取请求。主要是好奇人们对这个问题的看法以及如果我要创建一个 PR 的话,对于这个问题的正确方法有什么想法。

相关问题