我是一个比较新的刮取,并希望尝试这作为一个学习经验。我的最终目标是能够刮取项目统计从游戏网站https://lucy.allakhazam.com/和张贴他们通过不和谐机器人。然而,我遇到了一个问题,甚至试图从网站加载HTML,我不知道是什么问题。
request("https://lucy.allakhazam.com/item.html?id=28855", function(error, response, html) {
if(error) {
console.log("Error: " + error);
}
console.log("Status code: " + response.statusCode);
var $ = cheerio.load(html);
console.log(html);
});
控制台的唯一输出为:
<head><meta HTTP-EQUIV="Refresh" CONTENT="0; URL=/index.html?setcookie=1"></head>
我尝试过其他网站,我可以从他们那里得到原始的html,但不是这个,我不知道为什么。任何帮助都是感激之情,谢谢!
1条答案
按热度按时间pwuypxnk1#
我会使用一个基于承诺的请求库,比如fetch(自Node 18以来的原生库)、node-fetch或axios。一种选择是在重定向URL中硬编码:
如果您需要处理动态重定向,您可以解析重定向的URL并执行第二个请求: