textract PDF解析器：链式使用pdftotext/pdfminer和tesseract,

bqujaahr 于 6个月前发布在其他

关注(0)|答案(3)|浏览(101)

在第66条(评论)中，@pudo提出了这个想法，我想确保在忘记之前抓住它。

目前pdf解析器的工作方式是，你必须事先知道pdf是否为扫描图像，或者它是否嵌入了文本。这对最终用户来说是不方便的。一个更好的选择应该是：

3条答案

现在我在想，这也与 #50 、 #51 和 #52 有关，它们的目标是为现有的命令行实现提供一些可行的Python替代方案，以防有人无法在他们的系统上安装所有所需的系统包。

总的来说，如果能想出一些简单明了的方法来实现可靠的回退行为，使textract尽可能容易使用，那将是非常好的。一种可能的实现方法是有一个按文本提取精度排序的方法列表(自然回退到尝试其他方法),当“最佳猜测”不起作用时。我相信其他程序已经考虑过这种行为；有什么建议吗？

Are there any news on this?

没有，如果你觉得有用的话，请随意合并PR;欢迎贡献 @Ninoninoninonino