兄弟们,今天爬一个令人心情愉悦的网站
读者:哦豁!还有这么好的事,快写快写!我要心情愉悦!
马上 ,开始正题吧。
用到的环境:
python 3.8
pycharm 2021专业版 >>> 激活码
requests >>> pip install requests
parsel >>> pip install parsel
大致分为两步
一. 分析网站 (思路分析)
二. 爬虫流程
import requests
import parsel
import re
import os
for page in range(1, 11):
print(f'==================正在爬取第{page}页==================')
# 1.向目标网站发送请求(get,post)
response = requests.get(f'https://www.kanxiaojiejie.com/page/{page}')
# 2. 获取数据(网页源代码)
data_html = response.text
# 3. 解析网页(re正则表达式,css选择器,xpath,bs4,json) 提取每一个详情页的链接与标题
zip_data = re.findall('<a href="(.*?)" target="_blank"rel="bookmark">(.*?)</a>', data_html)
for url, title in zip_data:
print(f'----------------正在爬取{title}----------------')
if not os.path.exists('img/' + title):
os.mkdir('img/' + title)
# 4. 向详情页发送请求
resp = requests.get(url)
# 5. 获取数据(网页源代码)
url_data = resp.text
# 6. 解析网页 (提取图片链接)
selector = parsel.Selector(url_data)
img_list = selector.css('p>img::attr(src)').getall()
for img in img_list:
# 7. 向图片链接发送请求
# 8. 获取数据(图片二进制数据)
img_data = requests.get(img).content
# 9. 保存数据
img_name = img.split('/')[-1]
with open(f"img/{title}/{img_name}", mode='wb') as f:
f.write(img_data)
print(img_name, '爬取成功!!!')
print(title,'爬取成功!!!')
效果太好看了,我就不展示了,大家自己试试~
版权说明 : 本文为转载文章, 版权归原作者所有 版权申明
原文链接 : https://blog.csdn.net/fei347795790/article/details/120973063
内容来源于网络,如有侵权,请联系作者删除!