unstructured feat/允许解析的最大页数/最大字符数

6kkfgxo0  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(30)

我的服务只允许20k字符,大约是6页的PDF文件,但如果有人上传了200多页的PDF,在处理完后需要6分钟,然后我会检查文件中有多少字符。
在unstructured中是否有一个功能可以在达到x个总字符数时自动停止处理?(包括在响应中说明整个文件没有被处理并被截断)。

qf9go6mv

qf9go6mv1#

你可以通过一些适度的预处理来实现这种行为,以适应你的特定用例,例如:

from pypdf import PdfReader, PdfWriter

max_pages = 6

input_pdf = PdfReader("document.pdf")
output_pdf = PdfWriter()

for p in input_pdf.pages[:max_pages]:
    output_pdf.add_page(p)

output_pdf.write("first_six_pages.pdf")
vshtjzan

vshtjzan2#

你可以实现这种行为来适应你特定的使用场景,通过一些适度的预处理,例如这样:

from pypdf import PdfReader, PdfWriter

max_pages = 6

input_pdf = PdfReader("document.pdf")
output_pdf = PdfWriter()

for p in input_pdf.pages[:max_pages]:
    output_pdf.add_page(p)

output_pdf.write("first_six_pages.pdf")

是的,但如果页面每行只有100个字符,但我们允许最多20k个字符,那么有时可能会有12页,或者更多一点。

相关问题