web抓取我想要的数据_大数据知识库

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗？**更新问题，使其成为堆栈溢出的主题。

上个月关门了。
改进这个问题
我是一名在韩国一所大学从事java项目的大学生(我不精通英语，问问题使用谷歌翻译）。
在我的项目中，我需要一种技术，用java从网站上抓取和检索必要的数据，但是我甚至不能通过参考互联网上的各种例子和讲座来解决这个问题，所以我留下了一个问题。
下面是我尝试过的代码。

import java.io.IOException;
import java.util.Iterator;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class bx{
    public static void main(String[] args) {
//      try {
//          Document doc = Jsoup.connect("http://www.kobis.or.kr/kobis/business/stat/boxs/findDailyBoxOfficeList.do").get();
//          Element contents = doc.select(".tbl_comm th_sort tbl_min_width a").get(0);
//          
//          System.out.println(contents.toString());
//      }catch(Exception e) {
//          System.out.println(e);
//      }

        String url = "http://www.kobis.or.kr/kobis/business/stat/boxs/findDailyBoxOfficeList.do"; //크롤링할 url지정
        Document doc = null;        //Document에는 페이지의 전체 소스가 저장된다

        try {
            doc = Jsoup.connect(url).get();
        } catch (IOException e) {
            e.printStackTrace();
        }
        //select를 이용하여 원하는 태그를 선택한다. select는 원하는 값을 가져오기 위한 중요한 기능이다.
        Elements element = doc.select("table.tbl_comm");    

        System.out.println("============================================================");

        //Iterator을 사용하여 하나씩 값 가져오기
        Iterator<Element> ie1 = element.select("tbody#tbody_0 tr td").iterator();
        Iterator<Element> ie2 = element.select("tbody#tbody_0 tr td span.ellip per90 a").iterator();

        while (ie1.hasNext()) {
            System.out.println(ie1.next().text()+"\t"+ie2.next().text());
        }

        System.out.println("============================================================");

    }
}

我试图修改doc.select部分代码的内容，但未能加载所需的内容。
我想从下面图片中的站点获取“排名”、“电影标题”和“累计观众”的数据

网站地址：http://www.kobis.or.kr/kobis/business/stat/boxs/finddailyboxofficelist.do
我希望数据按排名、电影名称和累计观众数的顺序列出，并显示到第10位。

web抓取我想要的数据

暂无答案！

相关问题

热门标签

最新问答