我想写一个代码刮多个网页。
但问题是,网页中有两个数字变体。
000/BBSDD0002/93976?page=1&
000/BBSDD0002/93975?page=1&
000/BBSDD0002/93970?page=1&
000/BBSDD0002/93964?page=1&
000/BBSDD0002/93950?page=1&
000/BBSDD0002/93946?page=1&
000/BBSDD0002/93945?page=1&
000/BBSDD0002/93930?page=2&
000/BBSDD0002/93925?page=2&
.
.
.
.
000/BBSDD0002/39045?page=536&
正如我们在这里看到的,页码和文档号同时变化。
import requests
import re
from bs4 import BeautifulSoup
from itertools import product
page = range(1, 6)
document = range(39045, 93976)
for i, j in product(page, document):
print("Page Number:", i)
url = "https://000.com/BBSDD0002/{}?page={}&".format(i,j)
res = requests.get(url, headers=headers)
res.raise_for_status()
soup = BeautifulSoup(res.text,"lxml")
list1=soup.find_all("td", attrs = {"class":"sbj"})
for li in list1:
print(li.get_text())
到目前为止我是这样写的,但它只循环页码,所以它没有给予我任何东西。
是否有办法创建页码和文档编号的外观?
1条答案
按热度按时间f0brbegy1#
不确定您的目标是什么,但您可以这样做:
导致: