我正在尝试使用教程。然而,在对教程中提供的PDF进行分区时,我没有观察到存储在元素的元数据中的文本的字体样式。未来是否计划提取字体样式?
zbwhf8kr1#
@LunaticMaestro字体样式存储在.metadata.emphasized_text_contents和.metadata.emphasized_text_tags中。你看过那里吗?
.metadata.emphasized_text_contents
.metadata.emphasized_text_tags
u3r8eeie2#
你好,扫描器。感谢回复。遗憾的是,建议的元数据不包含请求的内容。请查看附上的屏幕截图。我正在使用来自示例文档 example-docs/layout-parser-paper.pdf 和的 PDF。
example-docs/layout-parser-paper.pdf
rpppsulh3#
你好,@LunaticMaestro 是的,很遗憾地发现元数据不支持PDF格式,对此表示歉意。但DOCX格式是支持的,如果这有帮助的话。
clj7thdc4#
我持不同意见。这里有一个示例代码片段,用于读取DOCX文件并无法解码字体元素。为了重现问题,请查找附加的DOCX文件。redacted.docx
sy5wg1nm5#
@LunaticMaestro ,你引用的文件使用了字符样式设置字符样式,遗憾的是这还不被支持。然而,直接使用工具栏按钮将文本加粗或斜体是正确检测的。我在文档中添加了以下段落:"这是一个包含一些粗体和一些斜体的段落",其中单词 "bold" 和 "italic" 使用工具栏按钮格式化,它产生了以下元数据:
{ 'category_depth': 0, 'emphasized_text_contents': ['bold', 'italic'], 'emphasized_text_tags': ['b', 'i'], 'last_modified': '2024-03-27T22:03:51', 'languages': ['eng'], 'parent_id': 'ede9865e755cdea84eb99e51cb277a0e', 'file_directory': '/Users/scanny/Desktop', 'filename': 'redacted.docx', 'filetype': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document', }
pqwbnv8z6#
由于非结构化重用 pdfminer 和 reference,我期望原生的PDF提取器能够获取字符属性,例如:pdf miner character style。
pdfminer
eimct9ow7#
bump - 我非常希望能够在元数据中包含文本细节,例如字体、大小等。添加这些信息应该不会太困难,因为通常底层的PDF提取器就有这些信息。
7条答案
按热度按时间zbwhf8kr1#
@LunaticMaestro字体样式存储在
.metadata.emphasized_text_contents
和.metadata.emphasized_text_tags
中。你看过那里吗?u3r8eeie2#
你好,扫描器。
感谢回复。遗憾的是,建议的元数据不包含请求的内容。请查看附上的屏幕截图。我正在使用来自示例文档
example-docs/layout-parser-paper.pdf
和的 PDF。
rpppsulh3#
你好,@LunaticMaestro 是的,很遗憾地发现元数据不支持PDF格式,对此表示歉意。但DOCX格式是支持的,如果这有帮助的话。
clj7thdc4#
我持不同意见。这里有一个示例代码片段,用于读取DOCX文件并无法解码字体元素。
为了重现问题,请查找附加的DOCX文件。
redacted.docx
sy5wg1nm5#
@LunaticMaestro ,你引用的文件使用了字符样式设置字符样式,遗憾的是这还不被支持。
然而,直接使用工具栏按钮将文本加粗或斜体是正确检测的。
我在文档中添加了以下段落:"这是一个包含一些粗体和一些斜体的段落",其中单词 "bold" 和 "italic" 使用工具栏按钮格式化,它产生了以下元数据:
pqwbnv8z6#
由于非结构化重用
pdfminer
和 reference,我期望原生的PDF提取器能够获取字符属性,例如:pdf miner character style。eimct9ow7#
bump - 我非常希望能够在元数据中包含文本细节,例如字体、大小等。添加这些信息应该不会太困难,因为通常底层的PDF提取器就有这些信息。