storm crawler:通过基本身份验证从单独的链接生成cookie,并使用cookie对seeds.txt中的链接进行爬网

ulydmbyx  于 2021-06-24  发布在  Storm
关注(0)|答案(1)|浏览(288)

我要爬网的网站通过第三方基本身份验证启用了身份验证。例如,需要爬网的url是https://intranet.crawl.com the url首先被重定向到另一个页面:http://auth.intranet.com,它允许基本身份验证,在传递使用cookie登录的有效用户名和密码时https://intranet.crawl.com
如何在storm crawler中实现上述身份验证?

bprjcwpo

bprjcwpo1#

一种选择是使用selenium并有一个自定义的navigationfilter来填充重定向url上的凭证,请参阅教程。
您还可以在爬网之前从外部生成cookie,并使用密钥集cookie在种子元数据中指定它。您需要将该密钥添加到conf中的metadata.transfer中,以便将其传输到outlink并持久化到存储中。

相关问题