我试图废弃这个网站https://portales.bancochile.cl/personas/beneficios?categoria=marcas特别是卡的信息,但CSS选择器没有找到信息。
一开始我用的是bs4,但现在,我用的是scrapy。这是我的基本蜘蛛。
import scrapy
from ..items import PracticescraperItem
import time
class BanChileSpider(scrapy.Spider):
name = 'banchile'
start_urls = [
'https://portales.bancochile.cl/personas/beneficios?categoria=marcas'
]
def parse(self, response):
items = PracticescraperItem()
time.sleep(5)
title = response.css('.new-beneficios-card-title d-flex::text').extract()
summary = response.css('.new-beneficios-card-subtitle d-flex::text').extract()
items['title'] = title
items['summary'] = summary
yield items
1条答案
按热度按时间g52tjvyc1#
主要原因是不工作的CSS选择器是网页是动态加载的JavaScript和scrapy不能渲染JS内容,但你可以刮所需的数据从
API
与scrapy的帮助很容易。范例:
输出:
...等等