textract 处理返回的文本内容为空,但在stdout.txt中,

nnsrf1az  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(43)

你好,textract库的process方法默认会将提取的文本写入到当前目录下的stdout.txt文件中。如果你想要指定输出文件名,可以在process方法中添加output_file参数,例如:

import textract
t = textract.process('xxxx_13_04-01-2017_p2.jpg', method='tesseract', language='ita', output_file='output.txt')
omvjsjqw

omvjsjqw1#

由于textract在处理某些pdf文件时能够正常工作,我没有意识到出了问题。我再次查看了安装日志,发现与swig相关的警告。这可能是导致奇怪行为(进程不返回文本)的原因。如果有人能证实这一点,那么这将成为一个关于SWIG的求助请求。

相关问题