在R中使用rvest进行网页抓取

wz1wpwve 于 2023-11-14 发布在其他

关注(0)|答案(2)|浏览(261)

我想提取的影响力排名表整齐与列排名，大学名称，可持续发展目标1，可持续发展目标2，可持续发展目标3，可持续发展目标4，和总体得分，国家。以下是我尝试的代码。

library(tidyverse)
library(rvest)
link <- "https://www.timeshighereducation.com/impactrankings"
selector <- "#block-system-main > div > div.container"
webpage <- read_html(link)
data <- html_nodes(webpage, selector)
content <- html_text(data)
content

字符串
上面的代码没有达到我的目的。我试图从网页上的大学影响力排名表中提取数据，并将其组织成一个整洁的格式。

来源：https://stackoverflow.com/questions/77428327/web-scraping-with-rvest-in-r

2条答案

按热度按时间

brvekthn1#

rvest问题的一般提示适用：在使用rvest之前，尝试temporarily blocking Javascript in your browser并重新加载页面。如果您想要的信息没有出现，则信息很可能是用JavaScript加载的，因此rvest不是该工作的工具。
回退选项包括：

我希望能在Inspector的Network选项卡中看到JSON文件
或者使用Selenium。

在这种情况下，我们是幸运的：
x1c 0d1x的数据
我们想要的文件是以world_impact_rankings开头的文件。我们可以通过以下方式获得URL：
1.在我们的浏览器中打开网页（截图是Chrome的，但与其他浏览器相同）
1.右键点击页面的任何地方，打开“检查”。应该会弹出一些东西，可能在浏览器窗口的底部
1.在这个新的区域（检查器）中，应该有一个网络标签在它的顶部，就像我的截图一样。
1.根据我的经验，你总是需要重新加载页面，让Network选项卡开始列出网络请求，所以重新加载页面。你现在应该看到很多请求被记录下来。
1.通过使用左上角的过滤器搜索框过滤请求，只过滤带有JSON文件的请求
1.找到您要查找的请求，右键单击它>复制>复制链接地址（如果您使用Firefox，它可能会说复制URL，这都是一样的）
现在我们有了URL，我们可以使用JSONlite将其加载到R中：

# (install if necessary, and) load jsonlite
pacman::p_load(jsonlite)
# it's best for you to do this yourself, as 1. the links are likely going to change into the future, and 2. it's best if I don't spoonfeed you everything! :-)
link <- "insert your link here"
# load the data
data <- fromJSON(link)
names(data) # [1] "data"      "subjects"  "locations" "pillars"

字符串
JSON文件包括四组不同的数据：“subjects”，它看起来像是一个命名的主题列表及其相应的代码，“locations”（每个国家的某种id），“pillars”（可能是内部模型数据）和“data”，它是其他所有内容，以及您正在寻找的数据。

df <- data$data |> dplyr::as_tibble() # I used as_tibble() here because R's default way of displaying a dataframe is to print the entire thing, which is a bit of a mess when it has 1591 rows and 22 columns, as in the example below. R knows not to print every row nor every column of a tibble, but converting it to a tibble() isn't strictly necessary
df

型
输出量：

# A tibble: 1,591 × 22
   rank_order rank  name          scores_overall scores_overall_rank record_type
   <chr>      <chr> <chr>         <chr>          <chr>               <chr>      
 1 1          1     Western Sydn… 99.4           1                   master_acc…
 2 2          2     University o… 97.5           2                   master_acc…
 3 3          3     Queen’s Univ… 97.2           3                   master_acc…
 4 4          4     Universiti S… 96.9           4                   master_acc…
 5 5          5     University o… 96.6           5                   master_acc…
 6 6          6     Arizona Stat… 96.5           6                   public     
 7 7          =7    University o… 96.4           7                   master_acc…
 8 8          =7    RMIT Univers… 96.4           8                   master_acc…
 9 9          =9    Aalborg Univ… 95.8           9                   master_acc…
10 10         =9    University o… 95.8           10                  master_acc…
# ℹ 1,581 more rows
# ℹ 16 more variables: member_level <chr>, url <chr>, nid <int>,
#   location <chr>, stats_number_students <chr>,
#   stats_student_staff_ratio <chr>, stats_pc_intl_students <chr>,
#   stats_female_male_ratio <chr>, aliases <chr>, subjects_offered <chr>,
#   best_scores <chr>, closed <lgl>, unaccredited <lgl>, disabled <lgl>,
#   apply_link <chr>, cta_button <df[,2]>

型
上面的排名只是为了整体排名。为了其他的排名，因为只有四个其他的排名，很容易通过重复上面的过程来获得这些排名。如果你在每个SDG上都这样做，那么我建议自动化这个过程（URL是在网站上的一些JSON中找到的，所以你可以抓取URL（例如，像margusl的答案），然后重复上面的过程）。
一个注意：你的问题-你说：

“我想提取的影响力排名表整齐的列排名，大学名称，可持续发展目标1，可持续发展目标2，可持续发展目标3，可持续发展目标4，和总体得分，国家。"*.

我想这是为了一项任务吧？如果是的话，你可能想和你的导师谈谈，问他们是否理解整洁的数据实际上意味着什么，因为他们所要求的，像SDG数字这样的信息存储在列的名称中并不是这样。整理这些数据意味着保持数据的长度，并添加一个SDG数字列，上面的数据是“总体”，还有其他东西的号码

展开查看全部

赞(0）回复(0）举报 2023-11-14

js5cn81o2#

实际的表数据以JSON的形式提供，而JSON又包含了SGD排名和分数的HTML片段。我们可以首先从页面源中提取JSON的URL，然后解析HTML来提取SGD数据：

library(dplyr, warn.conflicts = FALSE)
library(tidyr)
library(purrr)
library(rvest)
library(stringr)
# extract SGD values from html, returns list of lists for every record:
# List of 4
# $ :List of 2
# ..$ rnk: chr "5"
# ..$ val: chr "80.3"
# $ :List of 2
# ..$ rnk: chr "12"
# ..$ val: chr "93.4"
# $ :List of 2
# ..$ rnk: chr "15"
# ..$ val: chr "96.7"
# $ :List of 2
# ..$ rnk: chr "17"
# ..$ val: chr "98.8"
parse_sgd_row <- function(html){
  read_html(html) %>% 
    html_elements(".sdg-score-multi__item") %>% 
    map(\(sdg_item) list(rnk  = html_element(sdg_item, ".sdg-score-multi__number") %>% html_text2(),
                         val = html_element(sdg_item, ".sdg-score-multi__value") %>% html_text2()))
}
# extract url of the JSON that hold table content
# ( extract part of embedded js code and parse it as JSON )
json_url <- read_html("https://www.timeshighereducation.com/impactrankings") %>% 
  html_elements("script") %>% 
  pluck(10) %>% 
  html_text() %>% 
  str_split("\n") %>% 
  pluck(1) %>% 
  str_subset(fixed("function init_drupal_core_settings()")) %>% 
  str_extract("(?<=Drupal.settings, ).*(?=\\)\\;)") %>% 
  jsonlite::parse_json() %>% 
  pluck("the_data_rankings", "#datatable-1", "ajax", "url")
json_url
#> [1] "https://www.timeshighereducation.com/sites/default/files/the_data_rankings/world_impact_rankings_2023_0_en_a9364380c7df0f3c145f81db79c61be3.json"
# extract table from JSON
ranking <- jsonlite::fromJSON(json_url)$data %>% as_tibble()
glimpse(ranking)
#> Rows: 1,591
#> Columns: 22
#> $ rank_order                <chr> "1", "2", "3", "4", "5", "6", "7", "8", "9",…
#> $ rank                      <chr> "1", "2", "3", "4", "5", "6", "=7", "=7", "=…
#> $ name                      <chr> "Western Sydney University", "University of …
#> $ scores_overall            <chr> "99.4", "97.5", "97.2", "96.9", "96.6", "96.…
#> $ scores_overall_rank       <chr> "1", "2", "3", "4", "5", "6", "7", "8", "9",…
#> $ record_type               <chr> "master_account", "master_account", "master_…
#> $ member_level              <chr> "0", "6", "11", "0", "0", "11", "0", "0", "1…
#> $ url                       <chr> "/world-university-rankings/western-sydney-u…
#> $ nid                       <int> 1014, 512, 639, 131486, 808, 591, 564, 915, …
#> $ location                  <chr> "Australia", "United Kingdom", "Canada", "Ma…
#> $ stats_number_students     <chr> "36,033", "37,035", "26,556", "23,492", "18,…
#> $ stats_student_staff_ratio <chr> "40.3", "14.2", "26.2", "11.6", "22.9", "19.…
#> $ stats_pc_intl_students    <chr> "22%", "44%", "17%", "17%", "36%", "17%", "2…
#> $ stats_female_male_ratio   <chr> "58 : 42", "55 : 45", "59 : 41", "64 : 36", …
#> $ aliases                   <chr> "Western Sydney University University of Wes…
#> $ subjects_offered          <chr> "Civil Engineering,Geology, Environmental, E…
#> $ best_scores               <chr> "<a role=\"button\" class=\"sdg-score-multi_…
#> $ closed                    <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FA…
#> $ unaccredited              <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FA…
#> $ disabled                  <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FA…
#> $ apply_link                <chr> NA, "https://www.timeshighereducation.com/st…
#> $ cta_button                <df[,2]> <data.frame[26 x 2]>
# work with a subset of columns,
# switch to rowwise to parse each individual html snippet in 
# best_scores column to extacr SGD values;
# quite a slow process, test with first 10 rows
ranking[1:10,] %>% 
  select(rank_order, rank, name, scores_overall, location, best_scores) %>% 
  rowwise() %>% 
  mutate(sgd = parse_sgd_row(best_scores) %>% list(), .keep = "unused") %>% 
  ungroup() %>% 
  unnest_wider(sgd, names_sep = ".") %>% 
  unnest_wider(starts_with("sgd"), names_sep = ".")

字符串
前10行的结果帧：

#> # A tibble: 10 × 13
#>    rank_order rank  name   scores_overall location sgd.1.rnk sgd.1.val sgd.2.rnk
#>    <chr>      <chr> <chr>  <chr>          <chr>    <chr>     <chr>     <chr>    
#>  1 1          1     Weste… 99.4           Austral… 5         80.3      12       
#>  2 2          2     Unive… 97.5           United … 15        97.4      12       
#>  3 3          3     Queen… 97.2           Canada   2         90.6      16       
#>  4 4          4     Unive… 96.9           Malaysia 16        94.1      2        
#>  5 5          5     Unive… 96.6           Austral… 13        92.8      15       
#>  6 6          6     Arizo… 96.5           United … 15        95.4      14       
#>  7 7          =7    Unive… 96.4           Canada   9         99.4      2        
#>  8 8          =7    RMIT … 96.4           Austral… 10        92.1      8        
#>  9 9          =9    Aalbo… 95.8           Denmark  4         90.6      10       
#> 10 10         =9    Unive… 95.8           Canada   11        91.8      13       
#> # ℹ 5 more variables: sgd.2.val <chr>, sgd.3.rnk <chr>, sgd.3.val <chr>,
#> #   sgd.4.rnk <chr>, sgd.4.val <chr>

型
创建于2023-11-06附带reprex v2.0.2

展开查看全部

赞(0）回复(0）举报 2023-11-14

我来回答

在R中使用rvest进行网页抓取

2条答案

相关问题

热门标签

最新问答