我想把这里列出的每一个选举日期都列出来:https://voterportal.sos.la.gov/static/,这样我就可以前往每个相应的选举网站,下载并编译名为“Excel -完整结果”的电子表格
通常情况下,我会使用Rvest来获取链接网站上列出的每个日期,然后Map这些日期以到达每个选举网站(只是将选举日期附加到父网站的URL,如:“https://voterportal.sos.la.gov/static/2022-04-30“),然后阅读选举网站中链接的excels,但我遇到了一个以前没有遇到过的html_elements
问题:
我尝试使用html_elements
来提取日期:
la_elections_url <- "https://voterportal.sos.la.gov/static/"
la_elections_text <- read_html(la_elections_url)
la_elections_text %>% html_element("a")
我想我可以过滤到href
属性,比如:
html_attr(html_nodes(la_elections_text, "a"), "href") %>% as.list()
但我得到了警告:
la_elections_text %>% html_element("a")
{xml_missing}
<NA>
1条答案
按热度按时间ozxc1zmp1#
这个网站使用XHR来加载数据,这使得使用基于DOM的
rvest
有点棘手。幸运的是,你可以使用DevTools抓取URL来自己获取所有数据:使用
httr
,这变得非常简单:它为您提供: