描述错误
目前,auto()
分区方法的infer_table_structure
和skip_infer_table_types
参数仅应用于图像和pdf文档类型。对于提取表格内容的其他分区器,应考虑这一点。
重现
运行一个pptx
文档(即example-docs/layout-parser-paper-with-table.jpg
),通过分区方法进行操作,可以看到无论参数设置为何种值,text_as_html
仍然填充了表格内容。
预期行为
使用正确的参数组合对任何文档类型运行分区器,都应省略表格数据。
2条答案
按热度按时间hfwmuf9z1#
FYI in https://unstructured-io.github.io/unstructured/bricks/partition.html we have a table that shows all doc type with table support
2izufjch2#
我们确定这是我们想要的行为吗?
对我来说,
infer_table_structure
意味着“花额外的时间使用推理从没有明确表格结构的地方检测图像中的表格结构”。在DOCX、PPTX和HTML的情况下,显式的表格结构是立即可用的,一旦我们有了文本,计算
.text_as_html
就没有可察觉的时间损失。我倾向于认为这种行为已经是我们想要的样子。如果终端用户对
.text_as_html
没有用处,他们可以简单地忽略它,就像他们会忽略大多数元素的元数据一样。