我想从一个网页使用Python拉特定的链接。在我下面的例子中,我正在查看SEC网站上的8-K表格,其中有几个链接。一个新闻稿的链接,也是一个目录的链接。
在这里,我只希望被认为是展品的链接。任何8-K表格上的所有展品都应属于“第9.01项”。财务报表和附件部分。
下面的代码将获得8-K的所有链接,但我只希望在展览部分的链接。
import requests
from bs4 import BeautifulSoup
# Provide the URL and Headers
url = "https://www.sec.gov/Archives/edgar/data/707549/000070754923000005/lrcx-20230123.htm"
headers = {"User-Agent":"INSERT YOUR USER AGENT INFO HERE"}
# Send a GET request to retrieve the HTML content
response = requests.get(url,headers=headers)
html_content = response.text
# Parse the HTML content using BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")
# Find all the links in the HTML
all_links = soup.find_all("a")
# Extract the URLs from the links and print them
for link in all_links:
url = link.get("href")
print(url)
2条答案
按热度按时间carvr3hs1#
我找不到任何像
class
或id
这样的过滤器字段,以便我可以过滤特定的展品a tags
。但是,我注意到展示URL上有单词“exhibit”,所以下面的代码可以找到所有这些展示URL。
pexxcrt22#
查看页面,您可以搜索所有在
href=
中包含单词exibit
的链接:图纸:
编辑:要删除重复项,您可以使用例如
set()
:图纸: