我正试着把《华尔街日报》的400所大学的R语言排名全部找出来。我在R中使用rvest
包如下:
library(rvest)
link <- "https://www.wsj.com/rankings/college-rankings/best-colleges-2024"
wsj <- read_html(link)
在这之后,我真的不知道下一步该怎么办。页面的HTML源代码非常混乱,很难筛选。我觉得我已经取得了一些进展,通过做:
wsj %>% html_elements("section") %>% html_element("p")
但我是个新手,所以我可能没走对路。任何指示将不胜感激。
1条答案
按热度按时间zd287kbt1#
网页上的所有数据都存储为脚本节点中的JSON数据。搜索网页后,这里是快速解决方案。
在脚本节点中检索数据后,将其转换为文本,然后将JSON数据解析为列表。需要通读列表以识别正确的列表结构。