仍然存在这种表格结构下的重复文本问题:merged_table2.docx表格文档:
分区后:
**python-docx 1.1.2
非结构化 0.14.3**
pn9klfpd1#
@veredmm 我在这个文档中得到了 "HEADER 5 4 3 2 1 AAA BBB CCC" 作为 elements[0].text,这是预期的行为,并且不会在合并单元格中重复文本。该 Table 元素的 .metadata.text_as_html 是这个统一的 3 行 x8 列表格:
"HEADER 5 4 3 2 1 AAA BBB CCC"
elements[0].text
Table
.metadata.text_as_html
<table> <thead> <tr> <th>HEADER</th> <th>HEADER</th> <th>HEADER</th> <th>HEADER</th> <th>HEADER</th> <th>HEADER</th> <th>HEADER</th> <th>HEADER</th> </tr> </thead> <tbody> <tr> <td>5</td> <td>4</td> <td>4</td> <td>3</td> <td>2</td> <td>2</td> <td>1</td> <td>1</td> </tr> <tr> <td>AAA\nBBB\nCCC</td> <td>AAA\nBBB\nCCC</td> <td>AAA\nBBB\nCCC</td> <td>AAA\nBBB\nCCC</td> <td>AAA\nBBB\nCCC</td> <td>AAA\nBBB\nCCC</td> <td>AAA\nBBB\nCCC</td> <td>AAA\nBBB\nCCC</td> </tr> </tbody> </table>
.text_as_html 中的 HTML 表格是故意制作的 "均匀" (每行中的单元格数量相同),这就是为什么合并单元格中的每个 "网格" 单元格中都显示相同的内容。如果您认为它应该看起来不同,请建议(在 HTML 中)您认为它应该是什么样子,我们会考虑进行更改。
.text_as_html
vsdwdz232#
感谢@scanny的建议,我建议合并单元格的内容只出现在表格行的第一个单元格(td)中,其他单元格将为空。
2条答案
按热度按时间pn9klfpd1#
@veredmm 我在这个文档中得到了
"HEADER 5 4 3 2 1 AAA BBB CCC"
作为elements[0].text
,这是预期的行为,并且不会在合并单元格中重复文本。该
Table
元素的.metadata.text_as_html
是这个统一的 3 行 x8 列表格:.text_as_html
中的 HTML 表格是故意制作的 "均匀" (每行中的单元格数量相同),这就是为什么合并单元格中的每个 "网格" 单元格中都显示相同的内容。如果您认为它应该看起来不同,请建议(在 HTML 中)您认为它应该是什么样子,我们会考虑进行更改。
vsdwdz232#
感谢@scanny的建议,我建议合并单元格的内容只出现在表格行的第一个单元格(td)中,其他单元格将为空。