unstructured 提取文本元素的样式或字体,

roejwanj  于 6个月前  发布在  其他
关注(0)|答案(7)|浏览(74)

我正在尝试使用教程。然而,在对教程中提供的PDF进行分区时,我没有观察到存储在元素的元数据中的文本的字体样式。
未来是否计划提取字体样式?

zbwhf8kr

zbwhf8kr1#

@LunaticMaestro字体样式存储在.metadata.emphasized_text_contents.metadata.emphasized_text_tags中。你看过那里吗?

u3r8eeie

u3r8eeie2#

你好,扫描器。
感谢回复。遗憾的是,建议的元数据不包含请求的内容。请查看附上的屏幕截图。我正在使用来自示例文档 example-docs/layout-parser-paper.pdf

的 PDF。

rpppsulh

rpppsulh3#

你好,@LunaticMaestro 是的,很遗憾地发现元数据不支持PDF格式,对此表示歉意。但DOCX格式是支持的,如果这有帮助的话。

clj7thdc

clj7thdc4#

我持不同意见。这里有一个示例代码片段,用于读取DOCX文件并无法解码字体元素。
为了重现问题,请查找附加的DOCX文件。
redacted.docx

sy5wg1nm

sy5wg1nm5#

@LunaticMaestro ,你引用的文件使用了字符样式设置字符样式,遗憾的是这还不被支持。
然而,直接使用工具栏按钮将文本加粗或斜体是正确检测的。
我在文档中添加了以下段落:"这是一个包含一些粗体和一些斜体的段落",其中单词 "bold" 和 "italic" 使用工具栏按钮格式化,它产生了以下元数据:

{
    'category_depth': 0,
    'emphasized_text_contents': ['bold', 'italic'],
    'emphasized_text_tags': ['b', 'i'],
    'last_modified': '2024-03-27T22:03:51',
    'languages': ['eng'],
    'parent_id': 'ede9865e755cdea84eb99e51cb277a0e',
    'file_directory': '/Users/scanny/Desktop',
    'filename': 'redacted.docx',
    'filetype': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document',
}
pqwbnv8z

pqwbnv8z6#

由于非结构化重用 pdfminerreference,我期望原生的PDF提取器能够获取字符属性,例如:pdf miner character style

eimct9ow

eimct9ow7#

bump - 我非常希望能够在元数据中包含文本细节,例如字体、大小等。添加这些信息应该不会太困难,因为通常底层的PDF提取器就有这些信息。

相关问题