Python Scrapy,如何仅为网站的某些部分启用缓存

gmxoilav  于 2023-06-29  发布在  Python
关注(0)|答案(1)|浏览(118)

我正在用scrapy刮一个网站,我知道一些带有特定网址的页面根本不会改变,永远不会,而网站的其他部分带有特定网址的页面经常改变。我使用的是HTTPCACHE_ENABLED = True,显然只想缓存那些从未更改的页面,同时ping服务器以获取更改的页面。如果我知道哪些URL的格式会改变,哪些不会改变,我怎么能做到这一点呢?

utugiqy6

utugiqy61#

我找到解决办法了。您必须提供一个带有should_cache_request(self, request)中逻辑的自定义缓存策略,然后使用HTTPCACHE_POLICY = your policy object设置该策略

相关问题