我已经尝试了几乎所有我知道的网页抓取从以下链接https://static-content.springer.com/esm/art%3A10.1038%2Fnplants.2016.167/MediaObjects/41477_2016_BFnplants2016167_MOESM277_ESM.pdf,补充表8,从第26页。我还没有设法做到这一点
达达帕斯塔
里维斯特
以及
read.table(text="copy paste")
我想有你的意见,就如何从网上搜集复杂的表格。任何帮助或建议,不胜感激
如果你不能打开链接,请写评论,我会找到一个替代品
1条答案
按热度按时间huwehgph1#
这里有一个使用pdftools的可能解决方案。注意as_tibble是不必要的,我只使用它来进行漂亮的打印。
备注:看一下pdf,补充表8在第27页而不是第26页,所以我不知道你是想要第26页的表7还是第27页的表8(代码做第二个)。尽管如此,在你方便的时候编辑代码。
matches
regexp也是如此:它与所述表格的行匹配。