textract --元数据标志？

rdrgkggo 于 6个月前发布在其他

关注(0)|答案(4)|浏览(109)

其他工具，如Tika,也提取嵌入在文档中的元数据。我们是否也应该(可选地)用textract提取这些元数据？

这个项目的初衷是在进行任何后续的自然语言处理、分析和建模之前提供有用的文本提取。如果元数据对于这类应用也很重要(我以前的项目中肯定使用过元数据),我完全愿意添加这个功能，但我强烈认为解析器不应该被要求提取元数据。最重要的第一步是提取文本内容；元数据可以稍后提取。

如果我们最终在#39中切换到基于类的解析器，那么只需在解析器类中添加一个metadata方法就可以相对简单地实现逐个解析器的实现。
其他人对此有什么看法？
关于格式(json vs xml vs csv)有什么想法吗？我的初始偏好是字典和json,但也可以说服我采用其他方式。

4条答案

我想要一个元数据解析器。JSON是最简单的。这个项目正在进行中吗？

@bef55 not by me; contributions welcome!

@deanmalmgren 如果我有这个技能，我会很高兴的。不幸的是，我没有，这就是我为什么在这里的原因。无论如何，还是要感谢大家。

@deanmalmgren .我想就这个问题做出贡献，可以通过mohammedyunus009@gmail.com联系我。为社区服务将是一件愉快的事情。