你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据。你可以使用下面解决方法:
使用 Jsoup.connect(String url)
方法:
Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
connect(String url)
方法创建一个新的 [Connection](http://jsoup.org/apidocs/org/jsoup/Connection.html)
, 和 get()
取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。
[Connection](http://jsoup.org/apidocs/org/jsoup/Connection.html)
接口还提供一个方法链来解决特殊请求,具体如下:
Document doc = Jsoup.connect("http://example.com")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
这个方法只支持Web URLs (http
和https
协议); 假如你需要从一个文件加载,可以使用 parse(File in, String charsetName)
代替。
阅读更多JSOUP相关文章,请看专栏:《使用JSOUP实现网络爬虫》
版权说明 : 本文为转载文章, 版权归原作者所有 版权申明
原文链接 : https://blog.csdn.net/huxiweng/article/details/13627477
内容来源于网络,如有侵权,请联系作者删除!