摘要
在使用pdfminer与mupdf提取图像时,无法找到图像的源路径。
预期行为
我希望能够获取图像的源路径(在使用pdfjs时可以正常工作)
截图
API
我还尝试过ocrImages=true
调试器
{'id': 975, 'type': 'image', 'properties': {'order': 0, 'cr': 711.02, 'cl': 10.52}, 'metadata': [], 'box': {'l': 17.32, 't': 2.21, 'w': 27.52, 'h': 55.73}, 'src': '', 'refId': 'Im4', 'xObjId': '32', 'xObjExt': 'png'}
始终为空,但xObjId
具有与mupdf创建的图像文件夹中图像名称相同的名称ID。
环境
- 版本:1.1
- 操作系统:Windows 10
4条答案
按热度按时间au9on6nz1#
你好,@GabrielBellard
你能请上传输入的pdf吗?
50few1ms2#
当然:
Jacadi AZ_seconde vie chaussures_ICO.pdf
yacmzcpb3#
你好@GabrielBellard
我们仍然需要对'json导出器'进行一些小的重构,因为在
images
中,src
属性可能是Parsr API的URL,也可能是使用Parsr CLI时的本地文件路径。如果你正在运行Parsr API,那么图片src应该是:
你可以尝试下载文档的MarkDown以查看图片URL。
6xfqseft4#
你好@jvalls-axa
感谢你的回答。
我在文档中没有找到
image
端点,但我实际上通过这个路由获取到了图片。我会先用它。我还有一个问题。
image id
是否总是等于00
+xObjId
?还是总是一个四位数?如果xObjId
有超过四位数怎么办?谢谢!