unstructured 提取文本元素的样式或字体,

roejwanj 于 6个月前发布在其他

关注(0)|答案(7)|浏览(74)

我正在尝试使用教程。然而，在对教程中提供的PDF进行分区时，我没有观察到存储在元素的元数据中的文本的字体样式。
未来是否计划提取字体样式？

unstructured

来源：https://github.com/Unstructured-IO/unstructured/issues/2695

7条答案

按热度按时间

zbwhf8kr1#

@LunaticMaestro字体样式存储在.metadata.emphasized_text_contents和.metadata.emphasized_text_tags中。你看过那里吗？

赞(0）回复(0）举报 6个月前

u3r8eeie2#

你好，扫描器。
感谢回复。遗憾的是，建议的元数据不包含请求的内容。请查看附上的屏幕截图。我正在使用来自示例文档 example-docs/layout-parser-paper.pdf 和

的 PDF。

赞(0）回复(0）举报 6个月前

rpppsulh3#

你好，@LunaticMaestro 是的，很遗憾地发现元数据不支持PDF格式，对此表示歉意。但DOCX格式是支持的，如果这有帮助的话。

赞(0）回复(0）举报 6个月前

clj7thdc4#

我持不同意见。这里有一个示例代码片段，用于读取DOCX文件并无法解码字体元素。
为了重现问题，请查找附加的DOCX文件。
redacted.docx

赞(0）回复(0）举报 6个月前

sy5wg1nm5#

@LunaticMaestro ,你引用的文件使用了字符样式设置字符样式，遗憾的是这还不被支持。
然而，直接使用工具栏按钮将文本加粗或斜体是正确检测的。
我在文档中添加了以下段落："这是一个包含一些粗体和一些斜体的段落",其中单词 "bold" 和 "italic" 使用工具栏按钮格式化，它产生了以下元数据：

{
    'category_depth': 0,
    'emphasized_text_contents': ['bold', 'italic'],
    'emphasized_text_tags': ['b', 'i'],
    'last_modified': '2024-03-27T22:03:51',
    'languages': ['eng'],
    'parent_id': 'ede9865e755cdea84eb99e51cb277a0e',
    'file_directory': '/Users/scanny/Desktop',
    'filename': 'redacted.docx',
    'filetype': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document',
}

赞(0）回复(0）举报 6个月前

pqwbnv8z6#

由于非结构化重用 pdfminer 和 reference,我期望原生的PDF提取器能够获取字符属性，例如：pdf miner character style。

赞(0）回复(0）举报 6个月前

eimct9ow7#

bump - 我非常希望能够在元数据中包含文本细节，例如字体、大小等。添加这些信息应该不会太困难，因为通常底层的PDF提取器就有这些信息。

赞(0）回复(0）举报 6个月前