我要爬网的网站通过第三方基本身份验证启用了身份验证。例如,需要爬网的url是https://intranet.crawl.com the url首先被重定向到另一个页面:http://auth.intranet.com,它允许基本身份验证,在传递使用cookie登录的有效用户名和密码时https://intranet.crawl.com
如何在storm crawler中实现上述身份验证?
我要爬网的网站通过第三方基本身份验证启用了身份验证。例如,需要爬网的url是https://intranet.crawl.com the url首先被重定向到另一个页面:http://auth.intranet.com,它允许基本身份验证,在传递使用cookie登录的有效用户名和密码时https://intranet.crawl.com
如何在storm crawler中实现上述身份验证?
1条答案
按热度按时间bprjcwpo1#
一种选择是使用selenium并有一个自定义的navigationfilter来填充重定向url上的凭证,请参阅教程。
您还可以在爬网之前从外部生成cookie,并使用密钥集cookie在种子元数据中指定它。您需要将该密钥添加到conf中的metadata.transfer中,以便将其传输到outlink并持久化到存储中。