scrapy 仅对http标头数据进行临时爬网

gzszwxb4 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(111)

(How)我可以存档吗？2 Scrapy只下载网站标题数据（用于检查等）
我试过禁用一些下载中间件，但似乎不起作用。

1条答案

就像@alexce说的，你可以发出HEAD请求来代替默认的GET：

Request(url, method="HEAD")

UPDATE：如果你想对你的start_urls使用HEAD请求，你需要覆盖make_requests_from_url方法：

def make_requests_from_url(self, url):
    return Request(url, method='HEAD', dont_filter=True)

更新：Scrapy 2.6中删除了make_requests_from_url。