我一直在尝试使用scrapy和scrapy-splash来抓取这个网站Link。据我所知,这个网站是在react. response.xpath
中开发的,总是返回带有任何类名的空列表。请给我一个方法来抓取这个react网站。我有设置飞溅使用这个link,并能够刮一些其他网站在同一个项目,但无法刮这个React作出的网站。Spider的代码如下所示:
import scrapy
from scrapy_splash import SplashRequest
class NykaaFashionbrandsSpider(scrapy.Spider):
name = 'nykaa_fashionbrands'
start_urls = ["https://www.nykaafashion.com/"]
custom_settings = {
'FEED_FORMAT': 'csv',
'FEED_URI': 'fashion_brands.csv'
}
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url, self.parse,
endpoint='render.html',
args={'wait': 3},
)
def parse(self, response):
print(response.xpath('//*[@class="br-inner"]/ul/li/text()').extract())
# I am trying to get the list items
2条答案
按热度按时间czq61nw11#
如果您需要抓取所有产品或您拥有特定类别中的产品,您可以使用如下API url:
这段回应:
此网站不需要
Splash
whhtz7ly2#
我建议你一定要给予一试cloudscraper。我最近测试了刮开OpenSea,效果非常好。
通过运行
要抓取数据,请执行以下操作: