您的功能请求是否与问题相关?请描述。
有时在对包含图表和表格的PDF进行分区时,图表标题会被边界框裁剪掉,导致您在总结LLM时丢失了重要的上下文。
描述您希望实现的解决方案
在分区函数中添加一个bbox_scale参数,以增加/减少边界框的大小。
描述您考虑过的替代方案
除了可能更改检测模型之外,我不知道还有其他替代方案。
附加说明
更改应该在文件:unstructured\partition\pdf_image\pdf_image_utils.py
的第183行(版本0.14.6)完成。
修复问题的代码示例:
offset = 0.18 # Should be a parameter
padded_bbox = cast(
Tuple[int, int, int, int], pad_bbox((x1*(1-offset), y1*(1-offset), x2*(1+offset), y2*(1+offset)), (h_padding, v_padding))
)
3条答案
按热度按时间envsm3lx1#
你好,LesykDev。你能提供一个说明这个问题的PDF文档吗?
8cdiaqws2#
当然,@christinestraub — https://liftoff.energy.gov/wp-content/uploads/2023/05/20230523-Pathways-to-Commercial-Liftoff-Clean-Hydrogen.pdf
在第9、18和96页的图表上清晰可见。
Python 3.11.0,我的非结构化版本是0.12.2
dpiehjr43#
感谢您报告此问题。如果您愿意提交PR并附上您的建议修复,我们将很高兴进行审查。否则,我们将在我们能够处理时立即处理此事。