Python Scrapy，如何仅为网站的某些部分启用缓存

gmxoilav 于 2023-06-29 发布在 Python

关注(0)|答案(1)|浏览(118)

我正在用scrapy刮一个网站，我知道一些带有特定网址的页面根本不会改变，永远不会，而网站的其他部分带有特定网址的页面经常改变。我使用的是HTTPCACHE_ENABLED = True，显然只想缓存那些从未更改的页面，同时ping服务器以获取更改的页面。如果我知道哪些URL的格式会改变，哪些不会改变，我怎么能做到这一点呢？

来源：https://stackoverflow.com/questions/76555283/python-scrapy-how-to-enable-caching-only-for-certain-parts-of-websites

1条答案

按热度按时间

我找到解决办法了。您必须提供一个带有should_cache_request(self, request)中逻辑的自定义缓存策略，然后使用HTTPCACHE_POLICY = your policy object设置该策略

赞(0）回复(0）举报 2023-06-29

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前