unstructured docx: 推荐使用 document.core_properties.modified 而不是文件系统上的 last-modified,

s71maibg  于 3个月前  发布在  其他
关注(0)|答案(3)|浏览(45)

docx在其"part"中包含Dublin Core元数据。此元数据可靠地包含ISO 8601形式的modified时间戳,例如2023-09-14T04:12:00Z。由于此时间戳包含在文档中,因此它可以抵御文件复制和其他可能更改文件系统时间戳的操作。
这使得它成为文档“最后修改”日期的固有更可靠的来源。

***建议:***从.docx文档中恢复此日期并优先使用文件系统日期。

目前有两种优先级过滤:

  1. 如果收到一个metadata_last_modified值,表示当前文档是从其他非docx转换而来,最后修改日期在启动转换之前由源文件分区器确定。在使用时使用此值。
  2. 如果可用,则使用当前文件的文件系统时间戳。
  3. 否则使用None
    本建议是在步骤1和2之间从都柏林核心元数据中获取最后修改时间。此时间戳在转换过程中无法可靠地保留,因此metadata_last_modified仍然是从其他格式转换而来的文档更好的来源。
kognpnkq

kognpnkq1#

@scanny - 这个是否仍然相关?

bnl4lu3b

bnl4lu3b2#

@MthwRobinson 我认为这是一个产品问题。我希望这样做能改进元数据中的最后修改日期,但我们还没有处理或完成这个工单。然而,我没有看到有人抱怨最后修改日期不够好,所以也许这是可以放手并在有人实际要求更好的.metadata.last_modified时重新考虑的问题。

anhgbhbe

anhgbhbe3#

让我们将这个保留在待办事项列表中。我认为如果我们有带宽,这是一个很好的选择。谢谢!

相关问题