textract 后备的基于Python的.rtf提取

vaj7vani  于 6个月前  发布在  Python
关注(0)|答案(6)|浏览(122)

目前使用的是unrtf命令行工具,但将其作为后备的纯Python提取方法会更好。

1bqhqjot

1bqhqjot2#

好的发现,@pombredanne;感谢指出这一点!
如果有人对此感兴趣,pdf parser有一个很好的示例,说明如何从文档中提取多个method

k75qkfdt

k75qkfdt3#

@deanmalmgren 我会尽快完成这个任务。

pw136qt2

pw136qt24#

太棒了,感谢@jpadilla!

xuo3flqw

xuo3flqw5#

For one thing, pyth seems to have issues with charsets on the existing RTF files in textract which will make it harder to test. Might be related to brendonh/pyth#30

khbbv19g

khbbv19g6#

@jpadilla的确如此,我通过unrtf的测试文件运行了pyth,并在那里提交了一个工单:brendonh/pyth#34。这是一个帮助改进@brendonh pyth的机会吗?

相关问题