我在试着从一个网站上搜集数据。代码是工作,但网站阻止我的IP地址时,我试图刮所有滚动页。请让我知道,如果有任何建议,如何解决这个问题。谢谢
gkl3eglg1#
您可以使用代理。IP地址可以买得很便宜,然后你可以迭代通过一个列表的IP地址,同时改变您的浏览器和其他用户代理参数.
xqkwcwgp2#
当你第一次使用网页抓取器时,一个常见的错误是直接向网站发送请求(使用你选择的代码),而网站的响应将取决于你的活动。许多网站已经开发了检测机器人和网页抓取器的系统,如果你被发现,你的IP地址可能会被封锁,并且在很长一段时间内无法发出请求。这是一个问题。所以你这次用了IP代理来隐藏你的真实IP地址,其实你用了多个代理服务器来循环,让你的请求速度快了很多,但是还有一个问题,是的,验证码是你必须处理的另一个问题。因此,您需要添加一个验证码解算器层到您的刮刀。这就是ScraperApi的用武之地。它为你简化了所有复杂的过程。你所要做的就是请求scraperapi浏览一个URL并返回一个干净的HTML页面,而不用担心IP或captcha。Scraperapi可以用来为包含表单和js的复杂网页创建一个有效的web scraper。
2条答案
按热度按时间gkl3eglg1#
您可以使用代理。
IP地址可以买得很便宜,然后你可以迭代通过一个列表的IP地址,同时改变您的浏览器和其他用户代理参数.
xqkwcwgp2#
当你第一次使用网页抓取器时,一个常见的错误是直接向网站发送请求(使用你选择的代码),而网站的响应将取决于你的活动。许多网站已经开发了检测机器人和网页抓取器的系统,如果你被发现,你的IP地址可能会被封锁,并且在很长一段时间内无法发出请求。这是一个问题。
所以你这次用了IP代理来隐藏你的真实IP地址,其实你用了多个代理服务器来循环,让你的请求速度快了很多,但是还有一个问题,是的,验证码是你必须处理的另一个问题。
因此,您需要添加一个验证码解算器层到您的刮刀。
这就是ScraperApi的用武之地。它为你简化了所有复杂的过程。你所要做的就是请求scraperapi浏览一个URL并返回一个干净的HTML页面,而不用担心IP或captcha。Scraperapi可以用来为包含表单和js的复杂网页创建一个有效的web scraper。