我有一个四页的PDF文件,第3页包含一个表,我想提取:
with open(f"{data_dir}/{file_name}", "rb") as fd:
document = fd.read()
poller = document_analysis_client.begin_analyze_document("prebuilt-layout", document)
result = poller.result()
print(result)
运行此命令,它在文档中找不到任何表。
然而,当我运行完全相同的,只是添加page="3"
或page="2-"
作为一个参数到begin_analyze_document
,它的工作完美!
document = fd.read()
poller = document_analysis_client.begin_analyze_document("prebuilt-layout", document, pages="3")
result = poller.result()
print(result)
这是怎么回事?
1条答案
按热度按时间c0vxltue1#
实际上,您必须在所调用的
begin_analyze_document()
方法的参数中指定页面范围。https://learn.microsoft.com/en-us/python/api/azure-ai-formrecognizer/azure.ai.formrecognizer.documentanalysisclient?view=azure-python#azure-ai-formrecognizer-documentanalysisclient-begin-analyze-document