unstructured feat/防止在分割PDF时过度使用内存

mznpcxlj  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(31)

您的功能请求是否与问题相关?请描述。

在使用OCR策略对PDF进行分区时,某些PDF文件的处理过程会在所有环境中分配大量不可用的内存(例如,通过Google云运行时资源有限)。
例如,以下23MB的PDF在分区时会导致内存使用量超过10GB:https://drive.google.com/file/d/1lr-Pwh3QTVfdY4F6R-fk4tVU9FNSK27p/view?usp=sharing

描述您希望的解决方案

Unstructured应该采用敏感的默认值来避免这种情况(例如,渲染到内存中的页面的最大尺寸)。这也可以作为分区方法上的可选参数进行配置。
在这种情况下不可行的情况下,分区方法应引发描述性的异常,以便调用者可以优雅地处理情况,而不是使进程崩溃。
最重要的是提供一种限制Unstructured在分区过程中使用的内存量的方法。

描述您考虑过的替代方案

或者,分区可以在由另一个进程控制的单独内存受限的进程中运行。如果分区进程耗尽内存,编排进程可以处理这种情况。

chy5wohz

chy5wohz1#

@christinestraub -我知道你已经添加了一些代码(例如将PDF页面批处理转换为图像),以限制过度的内存使用。你还有什么其他想法来帮助解决这个问题吗?我认为这是一个很好的后续主题。

相关问题