页面内容是用JavaScript加载的,但Jsoup看不到它

ztyzrc3y  于 2023-02-07  发布在  Java
关注(0)|答案(8)|浏览(170)

页面上的一个块被JavaScript内容填充,使用Jsoup加载页面后,没有任何信息。在使用Jsoup解析页面时,是否有方法获得JavaScript生成的内容?
页面代码太长,无法粘贴到此处:http://pastebin.com/qw4Rfqgw
下面是我需要的内容元素:<div id='tags_list'></div>
我需要在Java中获得此信息。最好使用Jsoup。元素是字段与JavaScript的帮助:

<div id="tags_list">
    <a href="/tagsc0t20099.html" style="font-size:14;">разведчик</a>
    <a href="/tagsc0t1879.html" style="font-size:14;">Sr</a>
    <a href="/tagsc0t3140.html" style="font-size:14;">стратегический</a>
</div>

Java代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class Test
{
    public static void main( String[] args )
    {
        try
        {
            Document Doc = Jsoup.connect( "http://www.bestreferat.ru/referat-32558.html" ).get();
            Elements Tags = Doc.select( "#tags_list a" );

            for ( Element Tag : Tags )
            {
                System.out.println( Tag.text() );
            }
        }
        catch ( IOException e )
        {
            e.printStackTrace();
        }
    }
}
trnvg8h3

trnvg8h31#

JSoup是一个HTML解析器,而不是某种嵌入式浏览器引擎,这意味着它完全不知道在初始页面加载之后由Javascript添加到DOM中的任何内容。
要访问这种类型的内容,您需要一个嵌入式浏览器组件,关于这种类型的组件,例如Is there a way to embed a browser in Java?,有许多关于SO的讨论

bqf10yzr

bqf10yzr2#

在我的情况下解决com. codeborne. phantomjsdriver注意:这是很棒代码。

    • 聚合物. xml**
<dependency>
          <groupId>com.codeborne</groupId>
          <artifactId>phantomjsdriver</artifactId>
          <version> <here goes last version> </version>
        </dependency>
    • 幻影JsUtils.太棒了**
import org.jsoup.Jsoup
import org.jsoup.nodes.Document
import org.openqa.selenium.WebDriver
import org.openqa.selenium.phantomjs.PhantomJSDriver

class PhantomJsUtils {
    private static String filePath = 'data/temp/';

    public static Document renderPage(String filePath) {
        System.setProperty("phantomjs.binary.path", 'libs/phantomjs') // path to bin file. NOTE: platform dependent
        WebDriver ghostDriver = new PhantomJSDriver();
        try {
            ghostDriver.get(filePath);
            return Jsoup.parse(ghostDriver.getPageSource());
        } finally {
            ghostDriver.quit();
        }
    }

    public static Document renderPage(Document doc) {
        String tmpFileName = "$filePath${Calendar.getInstance().timeInMillis}.html";
        FileUtils.writeToFile(tmpFileName, doc.toString());
        return renderPage(tmpFileName);
    }
}
    • 项目中的类.常规**
Document doc = PhantomJsUtils.renderPage(Jsoup.parse(yourSource))
e0uiprwp

e0uiprwp3#

您需要了解正在发生的情况:

  • 当你从一个网站上查询一个页面时,无论是使用Jsoup还是浏览器,返回给你的都是一些HTML,Jsoup能够解析它。
  • 然而,大多数网站在HTML中包含Javascript,或者从HTML中链接,这将用内容填充页面。您的浏览器能够执行Javascript,从而填充页面。

理解这一点的方法如下:解析HTML代码很容易。2执行Javascript代码和更新相应的HTML代码要复杂得多,而且是浏览器的工作。
以下是一些解决此类问题的方法:

  • 如果你能找到Javascript代码正在进行的 AJAX 调用,也就是加载内容,你也许可以在Jsoup中使用这些调用的URL。为了做到这一点,请在浏览器中使用开发者工具。但这并不保证有效:
  • 这可能是URL是动态的,并且取决于在那个时间在页面上是什么
  • 如果内容不是公开的,则会涉及Cookie,而仅仅查询资源URL是不够的
  • 在这些情况下,你需要“模拟”浏览器的工作。幸运的是,这样的工具是存在的。我知道并推荐的一个是PhantomJS。它与Javascript一起工作,你需要通过启动一个新进程来从Java启动它。如果你想坚持使用Java,this post列出了一些Java替代品。
htrmnn0y

htrmnn0y4#

可以组合使用JSoup和HtmlUnit在JavaScript脚本加载完成后获取页面内容。

    • 聚合物. xml**
<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>3.35</version>
</dependency>
// load page using HTML Unit and fire scripts
WebClient webClient2 = new WebClient();
HtmlPage myPage = webClient2.getPage(new File("page.html").toURI().toURL());

// convert page to generated HTML and convert to document
Document doc = Jsoup.parse(myPage.asXml());

// iterate row and col
for (Element row : doc.select("table#data > tbody > tr"))
    for (Element col : row.select("td"))
        // print results
        System.out.println(col.ownText());

// clean up resources        
webClient2.close();
    • 一个复杂的示例:**加载登录名,获取会话和CSRF,然后发布并等待主页完成加载(15秒)
import java.io.IOException;
import java.net.HttpCookie;
import java.net.MalformedURLException;
import java.net.URL;

import org.jsoup.Connection;
import org.jsoup.Connection.Method;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.HttpMethod;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.WebRequest;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

//JSoup load Login Page and get Session Details
Connection.Response res = Jsoup.connect("https://loginpage").method(Method.GET).execute();

String sessionId = res.cookie("findSESSION");
String csrf = res.cookie("findCSRF");

HttpCookie cookie = new HttpCookie("findCSRF", csrf);
cookie.setDomain("domain.url");
cookie.setPath("/path");

WebClient webClient = new WebClient();
webClient.addCookie(cookie.toString(),
            new URL("https://url"),
            "https://referrer");

// Add other cookies/ Session ...

webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setUseInsecureSSL(true);
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getCookieManager().setCookiesEnabled(true);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
// Wait time
webClient.waitForBackgroundJavaScript(15000);
webClient.getOptions().setThrowExceptionOnScriptError(false);

URL url = new URL("https://login.path");
WebRequest requestSettings = new WebRequest(url, HttpMethod.POST);

requestSettings.setRequestBody("user=234&pass=sdsdc&CSRFToken="+csrf);
HtmlPage page = webClient.getPage(requestSettings);

// Wait
synchronized (page) {
    try {
        page.wait(15000);
    } catch (InterruptedException e) {
        e.printStackTrace();
    }
}

// Parse logged in page as needed
Document doc = Jsoup.parse(page.asXml());
7fyelxc5

7fyelxc55#

我事实上有一个“办法”!也许它是更多的“变通办法”比“方式...下面的代码检查 meta属性“REFRESH”和javascript重定向...如果他们中的任何一个存在RedirectedUrl变量设置。所以你知道你的目标...然后你可以检索目标页面,并继续...

String RedirectedUrl=null;
    Elements meta = page.select("html head meta");
    if (meta.attr("http-equiv").contains("REFRESH")) {
        RedirectedUrl = meta.attr("content").split("=")[1];
    } else {
        if (page.toString().contains("window.location.href")) {
            meta = page.select("script");
            for (Element script:meta) {
                String s = script.data();
                if (!s.isEmpty() && s.startsWith("window.location.href")) {
                    int start = s.indexOf("=");
                    int end = s.indexOf(";");
                    if (start>0 && end >start) {
                        s = s.substring(start+1,end);
                        s =s.replace("'", "").replace("\"", "");        
                        RedirectedUrl = s.trim();
                        break;
                    }
                }
            }
        }
    }

... now retrieve the redirected page again...
hs1ihplo

hs1ihplo6#

通过将JSoup与另一个框架结合来解释网页是可能的,在我的示例中,我使用的是HtmlUnit

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

...

WebClient webClient = new WebClient();
HtmlPage myPage = webClient.getPage(URL);

Document document = Jsoup.parse(myPage.asXml());
Elements otherLinks = document.select("a[href]");
z3yyvxxp

z3yyvxxp7#

指定用户代理后,我的问题就解决了。
https://github.com/jhy/jsoup/issues/287#issuecomment-12769155

lnlaulya

lnlaulya8#

试试看:

Document Doc = Jsoup.connect(url)
    .header("Accept-Encoding", "gzip, deflate")
    .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
    .maxBodySize(0)
    .timeout(600000)
    .get();

相关问题