我试图从这个网站-https://www.simplilearn.com/big-data-and-analytics/python-for-data-science-training中提取下载教学大纲链接
该链接在页面源代码中不可用,并且我在“网络”选项卡中看不到任何内容。但是,如果单击该链接,则会在其他选项卡中打开该链接。
我知道,用 selenium 提取是可能的,但我们能不用 selenium 提取吗?
链接在页面源代码中使用“#”隐藏。
所以我不知道,如何提取链接。我知道我将无法使用xpath或css提取。有人能帮助我吗?
1条答案
按热度按时间2lpgd9681#
在这一特殊情况下,
URL链接在div中的
data-url
属性(您提到的a href的正上方)上使用base64编码,id =“DownloadSyllabus2”:aHR0cHM6Ly93d3cuc2ltcGxpbGVhcm4uY29tL2ljZTkvcGRmcy9hZ2VuZGEvb25saW5lL0RhdGElMjBTY2llbmNlJTIwd2l0aCUyMFB5dGhvbi5wZGY=
个您需要使用base64对其进行解码,您将获得所需的url:https://www.simplilearn.com/ice9/pdfs/agenda/online/Data%20Science%20with%20Python.pdf
这并不是一个神奇的解决方案,为所有这样的情况下,但它的工程为这个网站,是最好的解决方案在这里。
所以,数据提取并不总是关于解决方案,但能够逆向工程的网站逻辑.
快乐刮痧:)