unstructured bug/infer_table_structure 用法未被所有分区器使用

nr7wwzry  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(50)

描述错误

目前,auto()分区方法的infer_table_structureskip_infer_table_types参数仅应用于图像和pdf文档类型。对于提取表格内容的其他分区器,应考虑这一点。

重现

运行一个pptx文档(即example-docs/layout-parser-paper-with-table.jpg),通过分区方法进行操作,可以看到无论参数设置为何种值,text_as_html仍然填充了表格内容。

预期行为

使用正确的参数组合对任何文档类型运行分区器,都应省略表格数据。

hfwmuf9z

hfwmuf9z1#

FYI in https://unstructured-io.github.io/unstructured/bricks/partition.html we have a table that shows all doc type with table support

2izufjch

2izufjch2#

我们确定这是我们想要的行为吗?
对我来说,infer_table_structure意味着“花额外的时间使用推理从没有明确表格结构的地方检测图像中的表格结构”。
在DOCX、PPTX和HTML的情况下,显式的表格结构是立即可用的,一旦我们有了文本,计算.text_as_html就没有可察觉的时间损失。
我倾向于认为这种行为已经是我们想要的样子。如果终端用户对.text_as_html没有用处,他们可以简单地忽略它,就像他们会忽略大多数元素的元数据一样。

相关问题