问题
当前,当使用"by_title"分块策略并且设置了coordinates = true
参数(以返回PDF块的坐标)时,坐标不会被返回(因为在这种策略下,单独的块在内部被连接起来,可能跨越多页)。
"by_title"策略非常有用,因为"default"策略经常返回非常小的块(包含一个单词或几个单词)。因此,无法使用"by_title"策略的坐标阻止了需要PDF文件中文本块坐标的使用案例。
建议
建议在使用"by_title"分块策略时返回合并后的边界框坐标,如果传递了multipage_sections = False
参数,则返回包含块的极坐标矩形(因此,块不能跨越多页,Unstructured.io API可以在单页上计算边界框坐标)。
附加上下文
这个问题在这里讨论过:#1698
2条答案
按热度按时间zlwx9yxi1#
根据@scanny的建议,也可以添加一些"by_page"策略(据我理解,这意味着"by_title"+
multipage_sections = False
)。1aaf6o9v2#
@awalker4 另外,
multipage_sections
参数目前不起作用(在0.0.72的最新API版本上尝试过,chunking_strategy
=by_title
)