Parsr 源图像在pdfminer和mupdf中未找到,

gkl3eglg 于 6个月前发布在其他

关注(0)|答案(4)|浏览(98)

摘要

在使用pdfminer与mupdf提取图像时，无法找到图像的源路径。

预期行为

我希望能够获取图像的源路径(在使用pdfjs时可以正常工作)

截图
API

我还尝试过ocrImages=true

调试器

{'id': 975, 'type': 'image', 'properties': {'order': 0, 'cr': 711.02, 'cl': 10.52}, 'metadata': [], 'box': {'l': 17.32, 't': 2.21, 'w': 27.52, 'h': 55.73}, 'src': '', 'refId': 'Im4', 'xObjId': '32', 'xObjExt': 'png'}始终为空，但xObjId具有与mupdf创建的图像文件夹中图像名称相同的名称ID。

环境

版本：1.1
操作系统：Windows 10

来源：https://github.com/axa-group/Parsr/issues/485

4条答案

按热度按时间

你好，@GabrielBellard
你能请上传输入的pdf吗？

赞(0）回复(0）举报 6个月前

当然：
Jacadi AZ_seconde vie chaussures_ICO.pdf

赞(0）回复(0）举报 6个月前

你好@GabrielBellard
我们仍然需要对'json导出器'进行一些小的重构，因为在images中，src属性可能是Parsr API的URL,也可能是使用Parsr CLI时的本地文件路径。
如果你正在运行Parsr API,那么图片src应该是：

http://localhost:3001/api/v1/image/DOC_ID/0032 ,其中DOC_ID是在'postDocument'请求中收到的UUID

你可以尝试下载文档的MarkDown以查看图片URL。

赞(0）回复(0）举报 6个月前

你好@jvalls-axa

感谢你的回答。

我在文档中没有找到 image 端点，但我实际上通过这个路由获取到了图片。我会先用它。

我还有一个问题。image id 是否总是等于 00 + xObjId?还是总是一个四位数？如果 xObjId 有超过四位数怎么办？

谢谢！

赞(0）回复(0）举报 6个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前