我想从链接https://www.betashares.com.au/fund/high-interest-cash-etf/中提取以下信息
我写了下面的代码:
link <- "https://www.betashares.com.au/fund/high-interest-cash-etf"
read_html(link) %>%
html_nodes('div') %>%
html_nodes('script') %>%
.[5] %>%
html_text() -> data
当我尝试使用类似于这里的东西时:In R extract a declared variable from html作为
library(V8)
ctx <- v8()
ctx$eval(data)
ctx$get("navdata")
我得到一个错误。我们可以通过“来进行字符串拆分;“并对\t和\n进行一些清理,但是有没有一种优雅的方法来处理这个问题呢?
1条答案
按热度按时间jgwigjjp1#
这是一个有点重的js块,有外部依赖关系(例如因为你只需要一行,你可以通过硬编码索引或定位
var navdata
来提取它。从那里你可以用V8
来计算这个赋值表达式:或者通过删除前导
var navdata =
和尾随;
来提取数组字符串,并将其解析为JSON:创建于2023-09-22使用reprex v2.0.2