scrapy 使用过滤条件将抓取的数据保存在不同的字典中

rjee0c15 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(106)

我已经刮2网址从同一个蜘蛛如下：

def start_requests(self):
  #calling Dawn Categories
  yield Request('https://www.dawn.com/business',callback=self.Dawn, meta={'category': 'business','source': 'DAWN'})
  yield Request('https://www.dawn.com/sport',callback=self.Dawn, meta={'category': 'sports','source': 'DAWN'})

这里self.Dawn从链接中抓取消息如下：

def parseDawn(self, response):
  items = WebscrapingItem()

  title = response.css("h2.story__title a.story__link::text").extract_first().strip() ,
  author = response.css("span.story__byline a.story__byline__link::text").extract_first() , 
  category = response.meta['category']

  items['title'] = title
  items['author'] = author
  items['category'] = category

  yield items

现在，在我的pipelines.py文件中，我想过滤掉那些在两个不同的字典中有category=='business'和category=='sports'的新闻。我这样做是为了过滤掉的新闻可以单独保存在我的数据库中。有没有办法做到这一点？？？

scrapy

来源：https://stackoverflow.com/questions/72677831/save-scraped-data-in-different-dictionaries-using-filter-condition

1条答案

按热度按时间

nr9pn0ug1#

你可以很容易地做到这一点使用你的管道-

class BotPipeline:
    def process_item(self, item, spider):
        if item['category'] == 'business':
            # insert db operation with this filtered item
            return item
        if item['category'] == 'sports':
            # insert db operation with this filtered item
            return item

赞(0）回复(0）举报 2022-11-09

我来回答

scrapy 使用过滤条件将抓取的数据保存在不同的字典中

1条答案

相关问题

热门标签

最新问答