unstructured bug - 在问题#2106之后合并重复的单元格文本

tsm1rwdh  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(31)

仍然存在这种表格结构下的重复文本问题:
merged_table2.docx
表格文档:

分区后:

**python-docx 1.1.2

非结构化 0.14.3**

pn9klfpd

pn9klfpd1#

@veredmm 我在这个文档中得到了 "HEADER 5 4 3 2 1 AAA BBB CCC" 作为 elements[0].text,这是预期的行为,并且不会在合并单元格中重复文本。
Table 元素的 .metadata.text_as_html 是这个统一的 3 行 x8 列表格:

<table>
    <thead>
      <tr>
        <th>HEADER</th>
        <th>HEADER</th>
        <th>HEADER</th>
        <th>HEADER</th>
        <th>HEADER</th>
        <th>HEADER</th>
        <th>HEADER</th>
        <th>HEADER</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>5</td>
        <td>4</td>
        <td>4</td>
        <td>3</td>
        <td>2</td>
        <td>2</td>
        <td>1</td>
        <td>1</td>
      </tr>
      <tr>
        <td>AAA\nBBB\nCCC</td>
        <td>AAA\nBBB\nCCC</td>
        <td>AAA\nBBB\nCCC</td>
        <td>AAA\nBBB\nCCC</td>
        <td>AAA\nBBB\nCCC</td>
        <td>AAA\nBBB\nCCC</td>
        <td>AAA\nBBB\nCCC</td>
        <td>AAA\nBBB\nCCC</td>
      </tr>
    </tbody>
  </table>

.text_as_html 中的 HTML 表格是故意制作的 "均匀" (每行中的单元格数量相同),这就是为什么合并单元格中的每个 "网格" 单元格中都显示相同的内容。
如果您认为它应该看起来不同,请建议(在 HTML 中)您认为它应该是什么样子,我们会考虑进行更改。

vsdwdz23

vsdwdz232#

感谢@scanny的建议,我建议合并单元格的内容只出现在表格行的第一个单元格(td)中,其他单元格将为空。

相关问题