我期待从这个carrier link刮数据,我使用的rvest包在R和伊夫刮一些顶部的信息在网页上使用下面的代码:
library(rvest)
url <- "https://www.aaacooper.com/pwb/Transit/ProTrackResults.aspx?ProNum=241939875&AllAccounts=true"
page <- read_html(url)
# Extract the table on the page
table <- page %>% html_nodes("table") %>% .[[2]] %>% html_table()
# Print the table
View(table)
这将产生以下信息:
但是,我希望以表格格式从“跟踪信息”表中检索信息:
1条答案
按热度按时间wfveoks01#
下面是一个mundate方法:
[[9]]
的使用是基于查看html_table()
返回的所有表,没有任何东西可以保证这个数字会持续存在。查找表的一个更好的方法是查找特定的属性/标题/名称/ID,最好使用SelectorGadget查找。
稍微更详细地查看URL页面可以发现该表的 parent 节点具有
class="tracingInformation"
,这表明我们可以这样做:我是如何发现的。我使用Firefox,我相信其他浏览器有相同或非常相似的键/标签/名称。
1.在浏览器中打开该url。
1.加载后,点击
F12
(或进入浏览器开发控制台的任何键)。1.选择“Pick an element”并选择所需的表格中的单元格。(在FF中,这是“Inspector”左侧的一个小按钮。)
1.查找单元格上方对
<table>
的第一个引用。(就像在这个例子中一样,我认为id="AAACooperMasterPage_bodyContent_grdViewTraceInfo"
有点晦涩/自动化),再往上走一点,直到你找到一个清晰的id=
或class=
。在这个例子中,我发现我们想要的表被另一个带有class="tracingInformation"
的表所包围。1.在
html_element(..)
中使用它。