unstructured feat/bbox_scaling_parameter

lqfhib0f  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(42)

您的功能请求是否与问题相关?请描述。

有时在对包含图表和表格的PDF进行分区时,图表标题会被边界框裁剪掉,导致您在总结LLM时丢失了重要的上下文。

描述您希望实现的解决方案

在分区函数中添加一个bbox_scale参数,以增加/减少边界框的大小。

描述您考虑过的替代方案

除了可能更改检测模型之外,我不知道还有其他替代方案。

附加说明

更改应该在文件:unstructured\partition\pdf_image\pdf_image_utils.py 的第183行(版本0.14.6)完成。
修复问题的代码示例:

offset = 0.18 # Should be a parameter
padded_bbox = cast(
    Tuple[int, int, int, int], pad_bbox((x1*(1-offset), y1*(1-offset), x2*(1+offset), y2*(1+offset)), (h_padding, v_padding))
)
envsm3lx

envsm3lx1#

你好,LesykDev。你能提供一个说明这个问题的PDF文档吗?

8cdiaqws

8cdiaqws2#

当然,@christinestraub — https://liftoff.energy.gov/wp-content/uploads/2023/05/20230523-Pathways-to-Commercial-Liftoff-Clean-Hydrogen.pdf
在第9、18和96页的图表上清晰可见。
Python 3.11.0,我的非结构化版本是0.12.2

dpiehjr4

dpiehjr43#

感谢您报告此问题。如果您愿意提交PR并附上您的建议修复,我们将很高兴进行审查。否则,我们将在我们能够处理时立即处理此事。

相关问题