我需要你的帮助/建议,从下面的链接网页抓取表信息,使用R或Python!https://euroleaguefantasy.euroleaguebasketball.net/en/stats-fantasy-euroleague
到目前为止,我已经尝试了rvest
包,但没有运气!
url <- "https://euroleaguefantasy.euroleaguebasketball.net/en/stats-fantasy-euroleague"
library(rvest)
read_html(url)
#> {html_document}
#> <html lang="en">
#> [1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
#> [2] <body class="loading">\n<app-root></app-root><button id="ot-sdk-btn" clas ...
创建于2023-10-06附带reprex v2.0.2
我无法检索,或者我不知道如何检索,从这里的任何内容!以来read_html(URL)[1]
或read_html(URL)[2]
不提供内容
任何关于我如何继续的想法或建议都非常感谢!
2条答案
按热度按时间hlswsv351#
您尝试抓取的页面是一个动态网页。这意味着表格内容不存在于您通过
read_html
下载的html中。相反,html包含从API获取json格式的数据以填充表的JavaScript代码。这个JavaScript会自动在你的浏览器中运行,这就是为什么你会看到这个表,但是当你使用read_html
时,它不会在R中运行。你可以用两种方法之一来解决这个问题。要么使用浏览器自动化(如Selenium),要么使用浏览器的控制台查找将返回原始数据的API请求。我通常发现第二种解决方案可以更好地控制您如何读取和处理数据,并将在这里展示。
首先,从浏览器的控制台获取url并将其放入R中(我将url分成几部分,并使用
paste
将它们重新组合在一起,以便它们适合屏幕)现在我们做
创建于2023-10-06附带reprex v2.0.2
enyaitl32#