我花了很多时间在Form Recognizer中的一些PDF文档上标记自定义提取模型。我看到blob中的表单,应用程序具有对blob的Reader访问权限,并且我看到在blob中创建了labels.json和ocr.json文件。当我尝试训练模型时,我得到了错误:InvalidContentSourceFormat:无效的内容源:无法读取生成内容。
我没有看到任何相关的日志或错误消息,但我确定我没有找对地方。我是Azure的新手,所以我感谢您的投入和帮助!
我查看了blob存储的活动日志,检查了资源组是否被锁定,检查了FormRecognizer是否具有blob的读取器角色。
1条答案
按热度按时间ffdz8vbo1#
基于该场景,我使用this和sample pdf form data创建了一个自定义表单识别器训练
错误消息“InvalidContentSourceFormat:无效的内容源:无法读取生成内容”指示您尝试用于训练模型的内容源访问存在问题。
根据问题中提供的详细信息,我已经生成了一个SAS URL到具有读取权限的Blob存储容器,并且它给出了访问错误。
要解决此问题,在生成blob存储容器的SAS URL时,请给予以下权限:
生成SAS URL:(https://i.imgur.com/qYh2wzT.png)
正如在azure sample code,中提到的那样,有了这个,我就能够访问数据并训练模型。
数据访问:(https://i.imgur.com/jKT4qct.png)
培训:(https://i.imgur.com/x5krhN2.png)
请在示例代码中检查/验证这些代码以了解更多详细信息: