Chrome Puppeteer ：如何加载html只没有CSS/JS/字体/图像？

s5a0g9ez 于 2022-12-06 发布在 Go

关注(0)|答案(2)|浏览(340)

我正在使用Puppeteer抓取一些数据，需要在相对较短的时间内访问许多页面。经过观察，我注意到这是相当低效的，因为我只对标记文件中的数据感兴趣，而整个页面都是图像，字体之类的内容是相当慢的。所以如果有一种方法可以跳过其他内容类型，让Puppeteer只返回HTML文件内容，那就太好了。下面是我的代码：

const browser = await puppeteer.launch({ headless: false });
const page = await browser.newPage();

const helperFile = fs.readFileSync("dist/app/scripts/helpers.js", "utf8");
await page.evaluateOnNewDocument(helperFile);

await login(page);
await postLogin(page);
await crawl(page); // this function is gonna call a lot of page.goTo(...)

await browser.close();

google-chrome

来源：https://stackoverflow.com/questions/70137586/puppeteer-how-to-load-html-only-without-css-js-fonts-images

2条答案

按热度按时间

mpbci0fu1#

您可以拦截来自Puppeteer的所有请求，只允许将文档返回到continue()的请求，并丢弃其余请求。
我还决定包含script类型，因为JS代码可能会修改初始DOM树（类似于appendChild(node)），如果您将SPA与React这样的现代FW/库一起使用，其中服务器只返回几个JS包来在客户机中生成HTML，则情况尤其如此。script和fetch类型是在JS代码向服务器发出额外请求以获取更多数据和更新DOM树时使用的。
第一个

赞(0）回复(0）举报 2022-12-06

bvuwiixz2#

我认为这个图书馆也提供了一个很好的方法来做这件事。它对我来说很有效。
https://www.npmjs.com/package/puppeteer-extra-plugin-block-resources
这里我告诉它阻止获取图像，脚本和样式表。还要注意，我没有使用plain puppeteer，而是puppeteer-extra，这是另一个需要的库。

const puppeteer = require('puppeteer-extra');
const blockResourcesPlugin = require('puppeteer-extra-plugin-block-resources')();
puppeteer.use(blockResourcesPlugin);

...
const browser = await puppeteer.launch({ headless: false });
const page = await browser.newPage();

blockResourcesPlugin.blockedTypes.add('image');
blockResourcesPlugin.blockedTypes.add('stylesheet');
blockResourcesPlugin.blockedTypes.add('script');

await page.goto('http://www.msn.com/', {waitUntil: 'domcontentloaded'});

赞(0）回复(0）举报 2022-12-06

我来回答

Chrome Puppeteer ：如何加载html只没有CSS/JS/字体/图像？

2条答案

相关问题

热门标签

最新问答