azure 表单识别器序列失败InvalidContentSourceFormat:无效的内容源:无法读取生成内容

w9apscun  于 2023-06-24  发布在  其他
关注(0)|答案(1)|浏览(123)

我花了很多时间在Form Recognizer中的一些PDF文档上标记自定义提取模型。我看到blob中的表单,应用程序具有对blob的Reader访问权限,并且我看到在blob中创建了labels.json和ocr.json文件。当我尝试训练模型时,我得到了错误:InvalidContentSourceFormat:无效的内容源:无法读取生成内容。
我没有看到任何相关的日志或错误消息,但我确定我没有找对地方。我是Azure的新手,所以我感谢您的投入和帮助!
我查看了blob存储的活动日志,检查了资源组是否被锁定,检查了FormRecognizer是否具有blob的读取器角色。

ffdz8vbo

ffdz8vbo1#

基于该场景,我使用thissample pdf form data创建了一个自定义表单识别器训练
错误消息“InvalidContentSourceFormat:无效的内容源:无法读取生成内容”指示您尝试用于训练模型的内容源访问存在问题。
根据问题中提供的详细信息,我已经生成了一个SAS URL到具有读取权限的Blob存储容器,并且它给出了访问错误。
要解决此问题,在生成blob存储容器的SAS URL时,请给予以下权限:

  • 阅读
  • 列表

生成SAS URL:(https://i.imgur.com/qYh2wzT.png
正如在azure sample code,中提到的那样,有了这个,我就能够访问数据并训练模型。
数据访问:(https://i.imgur.com/jKT4qct.png
培训:(https://i.imgur.com/x5krhN2.png
请在示例代码中检查/验证这些代码以了解更多详细信息:

  • 前缀
  • 包含子文件夹
  • useLabelFile
  • labels.json和OCR.json的布局

相关问题