我正在尝试刮擦此website中的表
首先,我尝试使用here中的R
,代码如下:
url <- paste0("https://artofproblemsolving.com/wiki/index.php/Polygon")
library(tidyverse)
library(rvest)
h <- read_html(url)
class(h)
tab <- h |> html_nodes("table")
tab[[1]]
tab <- tab[[1]] |> html_table()
class(tab)
tab
$\circ$
的最后两列缺失;当我用here中的代码尝试Python
时,同样的问题发生了:
import pandas as pd
URL = "https://artofproblemsolving.com/wiki/index.php/Polygon"
#tables = pd.read_html(URL,match="Number of Sides")
tables=pd.read_html(URL,attrs = {'class' : 'wikitable'})
print(tables)
print("There are : ",len(tables)," tables")
print("Take look at table 0")
tables[0]
我想知道你是否可以帮我解决这个问题,或者建议一个新的方法来刮整个表从链接。谢谢!
1条答案
按热度按时间ryevplcw1#
这里有一个解决方案。度是在图像元素中,所以你必须提取它们的“alt”属性。
创建于2022年12月26日,使用reprex v2.0.2