textract 将Antiword替换为Python替代方案

wnvonmuf  于 2个月前  发布在  Python
关注(0)|答案(2)|浏览(58)

您的功能请求是否与问题相关?请描述。

Antiword已经有一段时间没有更新了,现在源文件完全消失了。使用另一种方式解析Word文件会更好。

textract应该支持哪种文件类型?

docx

哪个外部软件(Python或命令行工具)可以解析请求的文件类型?

https://pypi.org/project/docx-parser/

描述您考虑过的替代方案

目前没有任何操作,包管理器删除了antiword及其所有依赖项,包括textract。

附加上下文

Homebrew/homebrew-core#131387相关。

agxfikkp

agxfikkp1#

根据documentation,反向词用于parsing旧的MS Word二进制doc文件(Word 97-2003),而更新的MS Word docx文件是parsed。不清楚docx-parser如何帮助处理前Word 97-2003文件。
需要考虑的一个问题是,doc扩展名可以是Word 97-2003或更新的Word文件。
也许abiword在这方面可以成为更好的替代方案。

zujrkrfu

zujrkrfu2#

感谢您指出这一点,我一定是误解了antiword实际上是用来做什么的。实际上我并不使用textract,所以很遗憾我无法在考虑Abiword方面提供太多帮助,我只是想确保这里的团队意识到Antiword的消失。

相关问题