scrapy 仅对http标头数据进行临时爬网

gzszwxb4  于 2022-11-09  发布在  其他
关注(0)|答案(1)|浏览(111)

(How)我可以存档吗?2 Scrapy只下载网站标题数据(用于检查等)
我试过禁用一些下载中间件,但似乎不起作用。

yhqotfr8

yhqotfr81#

就像@alexce说的,你可以发出HEAD请求来代替默认的GET:

Request(url, method="HEAD")

UPDATE:如果你想对你的start_urls使用HEAD请求,你需要覆盖make_requests_from_url方法:

def make_requests_from_url(self, url):
    return Request(url, method='HEAD', dont_filter=True)

更新:Scrapy 2.6中删除了make_requests_from_url

相关问题