Parsr 源图像在pdfminer和mupdf中未找到,

gkl3eglg  于 4个月前  发布在  其他
关注(0)|答案(4)|浏览(62)

摘要

在使用pdfminer与mupdf提取图像时,无法找到图像的源路径。

预期行为

我希望能够获取图像的源路径(在使用pdfjs时可以正常工作)

截图
API

我还尝试过ocrImages=true

调试器

{'id': 975, 'type': 'image', 'properties': {'order': 0, 'cr': 711.02, 'cl': 10.52}, 'metadata': [], 'box': {'l': 17.32, 't': 2.21, 'w': 27.52, 'h': 55.73}, 'src': '', 'refId': 'Im4', 'xObjId': '32', 'xObjExt': 'png'}始终为空,但xObjId具有与mupdf创建的图像文件夹中图像名称相同的名称ID。

环境

  • 版本:1.1
  • 操作系统:Windows 10
au9on6nz

au9on6nz1#

你好,@GabrielBellard
你能请上传输入的pdf吗?

yacmzcpb

yacmzcpb3#

你好@GabrielBellard
我们仍然需要对'json导出器'进行一些小的重构,因为在images中,src属性可能是Parsr API的URL,也可能是使用Parsr CLI时的本地文件路径。
如果你正在运行Parsr API,那么图片src应该是:

你可以尝试下载文档的MarkDown以查看图片URL。

6xfqseft

6xfqseft4#

你好@jvalls-axa

感谢你的回答。

我在文档中没有找到 image 端点,但我实际上通过这个路由获取到了图片。我会先用它。

我还有一个问题。image id 是否总是等于 00 + xObjId?还是总是一个四位数?如果 xObjId 有超过四位数怎么办?

谢谢!

相关问题