我是一个完全的初学者与网页抓取和编程与Python。答案可能是在论坛的某个地方,但我是如此新,我真的不知道现在,什么寻找。所以我希望,你能帮助我:
上周,我完成了一个为期三天的Python网页抓取课程,目前我正在努力温习我迄今为止学到的东西。
我试图从一个网站刮出一个特定的链接,这样我以后就可以创建一个循环,提取所有其他链接。但我似乎不能提取任何链接,即使他们在HTML代码中可见。
我尝试提取的链接位于此html代码:<a class="nav-action-arrow-underlined" href="/afgorelser-og-domme/afgorelser-fra-styrelsen-for-patientklager/22sfp108/" aria-label="Læs mere om Regionen tilbød ikke"\>Læs mere\</a\>
下面是我用Python编写的程序,我已经试过了:
url = "https://stpk.dk/afgorelser-og-domme/afgorelser-fra-styrelsen-for-patientklager/"
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, "html.parser")
a_tags = soup.find_all("a") len(a_tags)
there is 34 '然后尝试通过从0-33的所有“a标签”而没有找到链接。
如果我正在打印a_tags [26]
-我得到这个代码:<a aria-current="page" class="nav-action is-current" href="/afgorelser-og-domme/afgorelser-fra-styrelsen-for-patientklager/"\>Afgørelser fra Styrelsen for Patientklager\</a\>
这是在网站顶部的某个地方。但下一个a_tag [27]
是在网站底部的代码:<a class="footer-linkedin" href="``https://www.linkedin.com/company/styrelsen-for-patientklager/``" rel="noopener" target="_blank" title="``https://www.linkedin.com/company/styrelsen-for-patientklager/``"><span class="sr-only">Linkedin profil</span></a>
有人能告诉我如何访问包含链接的HTML代码的特定部分吗?
当我发现如何拔出链接,我的计划是使以下编程:
path = "/afgorelser-og-domme/afgorelser-fra-styrelsen-for-patientklager/22sfp108/"
full_url = f"htps://stpk.dk{path}"
print(full_url)
1条答案
按热度按时间g0czyy6m1#
你不会找到你要找的东西,因为
requests
不会像浏览器那样渲染网站-但不用担心,有一个替代方案。内容是通过API动态加载的,因此您应该直接调用它们,您将获得包含所显示信息的JSON。
XHR Requests
选项卡-可能需要花一分钟时间阅读并遵循以下主题:https://developer.mozilla.org/en-US/docs/Glossary/XHR_(XMLHttpRequest) * 的最大值只需对
items
进行迭代,提取url
值,并预先挂起base_url
。根据需要检查并操作以下参数:
示例
输出