我是一个完整的noobie,并试图webscrape以下网页:
https://ec.europa.eu/taxation_customs/dds2/taric/quota_consultation.jsp?Lang=en&Origin=&Code=090008&Critical=&Status=&Year=2023&Expand=true
本网站提供有关欧洲关税配额的信息。
特别是底部附近的内容物:订单号、起始日期、开始日期、结束日期、余额和html表格,可在[更多信息]页面上找到。
下面是我的代码:
url <- "https://ec.europa.eu/taxation_customs/dds2/taric/quota_consultation.jsp?Lang=en&Origin=&Code=090008&Critical=&Status=&Year=2023&Expand=true"
html <- url %>% url() %>% read_html() %>% html_elements("#overlayPanel")
不幸的是,我在html代码中尝试了不同的类和id的不同选择器(例如#quotaMarkedUpContainer),但代码没有返回任何有用的东西--只有空的null vector。
任何有助于理解这个问题的帮助都是感激不尽的。
最好的祝愿。
1条答案
按热度按时间vsikbqxv1#
正如注解中所指出的,结果表不包括在主页中,但我们可以通过在URL中将
quota_consultation.jsp
替换为quota_list.jsp
来发出相同的请求。连接处理也有问题,即使接收到内容,
rvest
也很可能失败。作为一种快速的变通方法,我们可以使用httr2
发出请求,并将响应定向到文件;虽然这也会失败,但我们至少可以恢复内容。所有指向更清洁解决方案的评论和编辑都非常受欢迎。
创建于2023-05-24使用reprex v2.0.2