Scrapy 400错误仅在爬网时出现，在使用Scrapy shell时不会出现

px9o7tmv 于 2022-11-09 发布在 Shell

关注(0)|答案(1)|浏览(150)

当我使用Scrapy Crawl函数从https://www.bbc.com/news/topics/c3np65e0jq4t抓取BBC新闻文章的URL时，收到400 HTTP状态代码未处理或不允许的错误。我正在使用下面的代码和命令来启动抓取。
第一个
返回此日志。
log
然而，当使用Scrapy Shell时，我可以使用一个简单的获取来访问完全相同的网页。
shell
不知道为什么会这样。我试过使用不同的用户代理和中间件，但似乎都不起作用。任何建议都将不胜感激。

scrapy

来源：https://stackoverflow.com/questions/72855823/scrapy-400-error-only-when-crawling-and-not-when-using-the-scrapy-shell

1条答案

按热度按时间

wbrvyc0a1#

400和500范围内的状态代码是错误，因此Scrapy在设计上忽略了这些错误。
如果在特定情况下，您仍然希望为这些状态代码调用回调方法（如parse），则可以通过在Spider类中添加以下内容来实现：

handle_httpstatus_list = [400, 404]  # note it's a list

在大多数情况下，400将是一个错误。如果需要，您可以使用errback来处理这些错误。有关详细信息，请参阅文档。

赞(0）回复(0）举报 2022-11-09

我来回答

Scrapy 400错误仅在爬网时出现，在使用Scrapy shell时不会出现

1条答案

相关问题

热门标签

最新问答