unstructured 建议:在使用"by_title"分块策略时,在块元数据中包含合并后的边界框坐标,

v7pvogib  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(43)

问题

当前,当使用"by_title"分块策略并且设置了coordinates = true参数(以返回PDF块的坐标)时,坐标不会被返回(因为在这种策略下,单独的块在内部被连接起来,可能跨越多页)。

"by_title"策略非常有用,因为"default"策略经常返回非常小的块(包含一个单词或几个单词)。因此,无法使用"by_title"策略的坐标阻止了需要PDF文件中文本块坐标的使用案例。

建议

建议在使用"by_title"分块策略时返回合并后的边界框坐标,如果传递了multipage_sections = False参数,则返回包含块的极坐标矩形(因此,块不能跨越多页,Unstructured.io API可以在单页上计算边界框坐标)。

附加上下文

这个问题在这里讨论过:#1698

zlwx9yxi

zlwx9yxi1#

根据@scanny的建议,也可以添加一些"by_page"策略(据我理解,这意味着"by_title"+ multipage_sections = False)。

1aaf6o9v

1aaf6o9v2#

@awalker4 另外,multipage_sections 参数目前不起作用(在0.0.72的最新API版本上尝试过,chunking_strategy = by_title)

相关问题