我目前正在做一些基本的基准测试(生成,拆分,合并,读取,压缩)来选择一个C# Pdf库在我的项目中使用。
我正在尝试从PDF文件中提取文本,并检查文本是否包含字符串。该文件是一个生成的发票,具有可利用的文本行,因此可以使用OCR,但不是必要的。
以DYNAMIC PDF为例,文档清晰
PdfDocument inputDocument = new PdfDocument(RessourcesBenchmark.PDF_MERGE_PAGE_TO_APPEND_PATH);
var text = inputDocument.GetText();
字符串
如何在C#中使用iText实现这一点?iText文档做得很奇怪,你要么阅读所有的API,要么阅读他们网站上的电子书或示例,这些总是非常具体的。我找到了this SO article关于注解的信息,并将PDF作为流阅读。
如果有人有一个例子或一个片段来指导我,我已经花了2个小时在这上面。
在我的基准测试之后,我会要求至少将代码发布到github,因为所有这些libraires文档并不总是显而易见的。
2条答案
按热度按时间camsedfj1#
在André Lemos的帮助下,我找到了一个解决方案。我将在这里发布完整的实现。
在另一篇文章中,我们必须创建一个实现
ITextExtractionStrategy
接口的自定义类。也许iText中的抽象类可以省去这一步。字符串
然后,我们可以将此类用作PdfCanvasProcessor中的参数来处理文本,并通过获取CASTED事件来处理
型
odopli942#
有一种方法可以使用C# * 从PDF中检索文本,而不需要 * 使用自定义文本提取策略。使用NET Core很简单,只需要
itext7
nuget包。(可以在here中找到工作解决方案的链接)。字符串