我尝试用Scrapy抓取网页。但是我收到了“重复”的警告。不能跳到下一页。
我怎样才能把所有的页面都标上页码?
示例站点:teknosa.com
抓取URL:https://www.teknosa.com/bilgisayar-tablet-c-116
分页结构:?s=%3Arelevance&page=0
(1、2、3、4、5及更多..)
我的分页代码:
next_page = soup.find('button', {'title': 'Daha Fazla Ürün Gör'})['data-gotohref']
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)
1条答案
按热度按时间kgsdhlau1#
您可以在start_urls中进行分页,并增加或减少页码范围。
输出:
多个URL,使用for循环进行分页