如何限制scrapy中每个域名的刮取项目数量?

pxy2qtax  于 2023-08-05  发布在  其他
关注(0)|答案(3)|浏览(189)

我正在努力从多个网站上抓取项目(使用scrapy相同)。我试图抓取的项目并不总是定义良好,可能在文本中。所以我使用字符串匹配来识别项目。然而,这也产生了一些不需要的信息沿着我所需的数据和我的刮刀需要很长时间刮取不需要的信息。为了避免这种情况,我对刮取的项目数量设置了上限。通过使用“if”条件,我在达到上限时引发CloseSpider()异常。这种方法工作正常,直到我只有一个域名。如何将其扩展到多个域。

  1. class CustomSpider(CrawlSpider):
  2. name = "myspider"
  3. start_urls = ['https://www.example1.com/']
  4. allowed_domains = ['www.example1.com']
  5. rules = [Rule(LinkExtractor(allow=()), callback='parse_info', follow = True)]
  6. def parse_info(self, response):
  7. scrape_count = self.crawler.stats.get_value('item_scraped_count')
  8. if scrape_count == 20:
  9. raise CloseSpider("Limit Reached")

字符串
我的问题是,如何为以下场景扩展此代码:

  1. class CustomSpider(CrawlSpider):
  2. name = "myspider"
  3. start_urls = ['https://www.example1.com/', 'https://www.example2.com/']
  4. allowed_domains = ['www.example1.com', 'www.example2.com/']
  5. rules = [Rule(LinkExtractor(allow=()), callback='parse_info', follow = True)]
  6. def parse_info(self, response):

建议此处更改逻辑

  1. scrape_count = self.crawler.stats.get_value('item_scraped_count')
  2. if scrape_count == 20:
  3. raise CloseSpider("Limit Reached")
x6yk4ghg

x6yk4ghg1#

看看这个玩具的例子:

  1. from __future__ import print_function
  2. import collections
  3. try:
  4. from urllib.urlparse import urlsplit
  5. except ImportError:
  6. from urlparse import urlsplit
  7. from scrapy.linkextractors import LinkExtractor
  8. from scrapy.spiders import CrawlSpider, Rule
  9. class MySpider(CrawlSpider):
  10. name = 'myspider'
  11. start_urls = ['http://quotes.toscrape.com/',
  12. 'http://webscraper.io/test-sites']
  13. allowed_domains = ['quotes.toscrape.com', 'webscraper.io']
  14. scraped_count = collections.defaultdict(int)
  15. limit = 10
  16. rules = [Rule(LinkExtractor(allow=()), callback='parse_page',
  17. follow=True, process_request='process_request')]
  18. def parse_page(self, response):
  19. yield {
  20. 'url': response.url
  21. }
  22. def process_request(self, request):
  23. url = urlsplit(request.url)[1]
  24. if self.scraped_count[url] < self.limit:
  25. self.scraped_count[url] += 1
  26. return request
  27. else:
  28. print('Limit reached for {}'.format(url))

字符串
它在属性scraped_count中跟踪每个域所抓取的项目数。属性limit保存每个域的限制。该逻辑被放在process_request方法中,该方法作为参数传递给Rule,并为该规则提取的每个请求调用(请参阅文档)。当超过限制时,请求将被过滤,否则将返回未更改的请求并进行处理。
如果您需要更复杂或适用于多个spider的东西,我建议您扩展CloseSpider扩展类,在那里实现逻辑并替换settings.py中的默认类。

展开查看全部
esbemjvw

esbemjvw2#

您可以使用CLOSESPIDER_ITEMCOUNT
一个整数,它指定项目数。如果爬行器抓取的项目超过这个数量,并且这些项目被项目管道传递,那么爬行器将被关闭,原因是closespider_itemcount。当前在下载器队列中的请求(直到CONCURRENT_REQUESTS请求)仍会被处理。如果为零(或未设置),蜘蛛不会被传递的项目数关闭。

pcww981p

pcww981p3#

  1. import scrapy
  2. class MySpider(scrapy.Spider):
  3. name = 'my_spider'
  4. custom_settings = {
  5. 'CLOSESPIDER_ITEMCOUNT': 100,
  6. }

字符串

相关问题