scrapy 无法从Zara抓取图像URL

tvz2xvvm  于 2023-03-02  发布在  其他
关注(0)|答案(1)|浏览(164)

我试图从Zara刮一个图像URL,但我唯一认为我得到的是透明背景的URL。
这是我试图刮的链接:https://static.zara.net/photos///2022/V/0/1/p/9598/176/406/2/w/850/9598176406_1_1_1.jpg?ts=1640187784252这是我一直得到的链接:https://static.zara.net/stdstatic/1.249.0-b.13/images/transparent-background.png'
有什么想法吗?这是我的代码。提前谢谢你!!* 注:我在图像中使用了extract(),而不是extract_first(),以查看是否有多个链接,但它们都是相同的。
从剪贴板导入剪贴板。链接提取器导入链接提取器

from Zara.items import Producto

class ZaraSpider(scrapy.Spider):
    name = 'zara'
    allowed_domains = ['zara.com']
    start_urls = [
    'https://www.zara.com/es/es/jersey-punto-cuello-subido-p09598176.html'
    ]
def parse(self, response):
    
    producto = Producto()
    
    # Extraemos los enlaces
    links = LinkExtractor(
        allow_domains=['zara.com'],
        restrict_xpaths=["//a"],
        allow="/es/es/"
        ).extract_links(response)
    
    outlinks = [] # Lista con todos los enlaces
    for link in links:
        url = link.url
        outlinks.append(url) # Añadimos el enlace en la lista
        yield scrapy.Request(url, callback=self.parse) # Generamos la petición  

    
    product = response.xpath('//meta[@content="product"]').extract()
    if product:
    # Extraemos la url, el nombre del producto, la descripcion y su precio
        producto['url'] = response.request.url
        producto['nombre'] = response.xpath('//h1[@class="product-detail-info__name"]/text()').extract_first()
        producto['precio'] = response.xpath('//span[@class="price__amount-current"]/text()').extract_first()
        producto['descripcion'] = response.xpath('//div[@class="expandable-text__inner-content"]//text()').extract_first()
        
        producto['imagen'] = response.xpath('//img[@class="media-image__image media__wrapper--media"]/@src').extract()
        #producto['links'] = outlinks
    
    yield producto'''
xe55xuns

xe55xuns1#

所以问题是它是用javascript生成的。试着用scrappy shell请求一个网页并查看响应,然后你会发现你可以用另一种方式找到请求的图像网址。

import scrapy
from scrapy.linkextractors import LinkExtractor
# from Zara.items import Producto

class Producto(scrapy.Item):
    url = scrapy.Field()
    nombre = scrapy.Field()
    precio = scrapy.Field()
    descripcion = scrapy.Field()
    imagen = scrapy.Field()
    links = scrapy.Field()

class ZaraSpider(scrapy.Spider):
    name = 'zara'
    allowed_domains = ['zara.com']
    start_urls = [
        'https://www.zara.com/es/es/jersey-punto-cuello-subido-p09598176.html'
    ]

    def parse(self, response):
        producto = Producto()
    
        # Extraemos los enlaces
        links = LinkExtractor(
            allow_domains=['zara.com'],
            restrict_xpaths=["//a"],
            allow="/es/es/"
        ).extract_links(response)
    
        outlinks = []   # Lista con todos los enlaces
        for link in links:
            url = link.url
            outlinks.append(url)    # Añadimos el enlace en la lista
            yield scrapy.Request(url, callback=self.parse)  # Generamos la petición  

        product = response.xpath('//meta[@content="product"]').get()
        if product:
            # Extraemos la url, el nombre del producto, la descripcion y su precio
            producto['url'] = response.request.url
            producto['nombre'] = response.xpath('//h1[@class="product-detail-info__name"]/text()').get()
            producto['precio'] = response.xpath('//span[@class="price__amount-current"]/text()').get()
            producto['descripcion'] = response.xpath('//div[@class="expandable-text__inner-content"]//text()').get()
            producto['imagen'] = response.xpath('//meta[@property="og:image"]/@content').get()
            #producto['links'] = outlinks
    
            yield producto

顺便说一句,看看爬行蜘蛛。

相关问题