我用Java编写了这段代码,它可以将pdf转换为html,并通过JAX-RS Web服务返回给我,我使用了PDF 2DOM库。我想知道是否有办法访问r类为我创建的div并将其删除,因为它们会使文档在HTML中无法很好地显示。或者,如果没有办法,请从标题中删除名为r的样式。
Document dom = null;
try {
// load the PDF file using PDFBox
PDDocument pdf = PDDocument.load(tempFile);
// create the DOM parser
PDFDomTree parser = new PDFDomTree();
// parse the file and get the DOM Document
dom = parser.createDOM(pdf);
} catch (Exception e) {
e.printStackTrace();
}
return dom;
1条答案
按热度按时间wgx48brx1#
最后,我用下面的代码解决了这个问题: