当前位置: 首页 > news >正文

Puppeteer:浏览器控制器

Puppeteer

Puppeteer是Chrome团队开源的Node库,其提供基于DevTools协议的高阶API让开发人员能够控制Headless Chrome、Chromium、Chrome等浏览器

通过Puppeteer能够将平时手动使用浏览器的操作通过代码的方式自动化执行,例如抓取网页、填充表单、下载文件、自动化测试,甚至使用开发者工具等。

安装要求

Node v6.4.0,但建议使用v7.6.0以上,原因是Puppeteer的很多用法都是异步的,原生支持async/await显得比较友好。

npm i --save puppeteer

起步

使用Puppeteer的流程比较简单,有点类似我们使用浏览器的流程,按照你操作浏览器的过程得到信息的过程,一步步执行对应的代码:

const puppeteer = require('puppeteer');  // 引用

async function open(url) {
    let browser = await puppeteer.launch({
        headless: true,
        executablePath: '/Applications/Google Chrome Canary.app/Contents/MacOS/Google Chrome Canary'
    }); // 创建browser实例,相当于打开浏览器
    let page = await browser.newPage(); // 打开页面,相当于打开标签页
    await page.goto(url, {
        waitUnil: 'networkidle0'
    }); // 跳转到指定url
    /* 这里可以针对页面进行很多操作 */
    browser.close(); // 关闭浏览器
}
open('www.taobao.com');

下图是官方结构图
enter description here

Page.$(selector)

通过css selector写法获取单个对象,返回<Promise<?ElementHandle>>

Page.$$(selector)

与Page.$(selector) 类似,但返回的是一组对象,<Promise<Array<ElementHandle>>>

page.$$eval(selector, pageFunction[, ...args])

获取属性

const divsCounts = await page.$$eval('div', divs => divs.length);

page.evaluate(pageFunction, ...args)

执行页面脚本

page.waitFor(selectorOrFunctionOrTimeout[, options[, ...args]])

等待指定Dom显示、等待方法执行、等待一段时间

page.waitForNavigation(options)

等待页面跳转


下文将通过几个场景来展现Puppeteer的一些用法

爬虫

抓取1688的某商品详情页内容,我们需要事先分析该页面的结构,以便能够抓取所需的信息。

商品名称class="d-title" dom
商品信息全局inline js iDetailConfig对象
商品缩略图全局inline js iDetailData对象
商品详情图id="desc-lazyload-container" dom里面所有img,使用了lazy-load

具体看下面的关键代码

let detailUrl = 'https://detail.1688.com/offer/564492877842.html';

/**
 * 抓取详情页
 * @param {Object} page 
 */
async function fetchDetail(page) {
    // 获取商品名称
    let dTitleHandle = await page.$('.d-title');  // 使用css selector格式查找商品名称,返回
    let dTitle = await page.evaluate(dTitle => dTitle.innerHTML, dTitleHandle); // 获取dom innerHTML
    let iDetailConfig = await page.evaluate(x => {
        return Promise.resolve(iDetailConfig);
    }); // 获取页面js iDetailConfig对象
    let iDetailData = await page.evaluate(x => {
        return Promise.resolve(iDetailData);
    }); // 获取页面js iDetailData对象
    let detail = {
        title: dTitle,
        offerid: iDetailConfig.offerid,
        skuProps: iDetailData.sku.skuProps,
        skuMap: iDetailData.sku.skuMap
    }; 
    /**
    * ……
    */
    // 获取sku图片和缩略图
    Object.keys(detail.skuMap).forEach(async (skuName) => {
        let selectorStr = `tr[data-sku-config] span.image[title=${skuName}]`;
        // 遍历sku信息查找对应的缩略图标签,读取data-imgs属性的json,从其中获取缩略图和原图url
        let dataImgsValue = page.evaluate(selectorStr => {
            return document.querySelector(selectorStr).dataset.imgs;
        }, selectorStr);
        let dataImgs = JSON.parse(await dataImgsValue);
        // 调用第三方库下载图片
        await saveImgs(dataImgs.preview, `${dir}/preview`);
        await saveImgs(dataImgs.original, `${dir}/original`);
        
    });
    // 加载详情图
    let preScrollHeight = 0;
    let scrollHeight = -1;
    while(preScrollHeight !== scrollHeight) {
        // 详情信息是根据滚动异步加载,所以需要让页面滚动到屏幕最下方,通过延迟等待的方式进行多次滚动
        let scrollH1 = await page.evaluate(async () => {
            let h1 = document.body.scrollHeight;
            window.scrollTo(0, h1);
            return h1;
        });
        await page.waitFor(500);
        let scrollH2 = await page.evaluate(async () => {
            return document.body.scrollHeight;
        });
        let scrollResult = [scrollH1, scrollH2];
        preScrollHeight = scrollResult[0];
        scrollHeight = scrollResult[1];
    }
    let descContainerHandle = await page.$('#desc-lazyload-container');
    let descImgs = await page.evaluate(descContainer => {
        let descImgs = [];
        descContainer.querySelectorAll('img').forEach(imgElement => {
            // 遍历保存所有的详情页图片
            descImgs.push({
                src: imgElement.src
            })
        });
        return descImgs;
    }, descContainerHandle);
}

使用Trace功能

除了基本的页面浏览功能,Puppeteer同样能够调用devtool的功能,其中就包括Trace,能够自动保存网页浏览的trace文件,能够成为分析性能的辅助工具。


async function trace(url) {
/**
* ………
*/
// 页面的trace数据会被保存到trace.json
    await page.tracing.start({path: './dist/trace.json'});
    await page.goto(url, {
        waitUnil: 'networkidle0'
    });
    await page.tracing.stop();
}

保存下来的json文件可以通过chrome devtool加载手动分析,也可以通过程序方式提取关键信息进行自动分析,如页面加载速度、页面展现截图、脚本执行性能等,这个功能在自动化监控方面会有很大的想象空间。

总结

Puppeteer的出现提升了开发、测试对浏览器的自动化控制能力,其性能、API友好度、兼容性都远远超过PhantomJS,对于使用者来说,需要更多地思考如何更好地利用工具的能力,例如爬虫的难点并不在于爬虫工具,而是如何更有效率地抓取数据、反爬,获取Trace后的分析同样才是技术难点。

相关文章:

  • Centos 如何双击执行可执行程序
  • 大幕已拉开,人工智能离我们还有多远?
  • SpringBoot2系列教程(二)maven项目包 (特别完整!)
  • 如何用 SpringBoot 优雅的写代码
  • postgres 错误
  • 如何在C#项目中使用NHibernate
  • JAVA多线程机制解析-volatilesynchronized
  • 基于hi-nginx的web开发(python篇)——cookie和会话管理
  • hostPath Volume - 每天5分钟玩转 Docker 容器技术(148)
  • 使用vigil 监控微服务系统包含可视化界面
  • Centos查看端口占用情况和开启端口命令
  • 分布式计算框架MapReduce
  • php新特性:trait 关键字使用
  • BZOJ2938:[POI2000]病毒(AC自动机)
  • MaxCompute访问TableStore(OTS) 数据
  • 分享的文章《人生如棋》
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • Node 版本管理
  • Vue实战(四)登录/注册页的实现
  • windows-nginx-https-本地配置
  • 第三十一到第三十三天:我是精明的小卖家(一)
  • 猫头鹰的深夜翻译:JDK9 NotNullOrElse方法
  • 面试遇到的一些题
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 前端性能优化--懒加载和预加载
  • 如何进阶一名有竞争力的程序员?
  • 适配mpvue平台的的微信小程序日历组件mpvue-calendar
  • 听说你叫Java(二)–Servlet请求
  • 通过git安装npm私有模块
  • 在weex里面使用chart图表
  • #define用法
  • #微信小程序:微信小程序常见的配置传旨
  • #预处理和函数的对比以及条件编译
  • ${ }的特别功能
  • (C语言)输入自定义个数的整数,打印出最大值和最小值
  • (iPhone/iPad开发)在UIWebView中自定义菜单栏
  • (ZT)一个美国文科博士的YardLife
  • (多级缓存)多级缓存
  • (附源码)php新闻发布平台 毕业设计 141646
  • (附源码)springboot 房产中介系统 毕业设计 312341
  • (六)激光线扫描-三维重建
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第3章 信息系统治理(一)
  • (四)库存超卖案例实战——优化redis分布式锁
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (转)http-server应用
  • (转)项目管理杂谈-我所期望的新人
  • .dat文件写入byte类型数组_用Python从Abaqus导出txt、dat数据
  • .form文件_一篇文章学会文件上传
  • .NET/C# 检测电脑上安装的 .NET Framework 的版本
  • .NET简谈互操作(五:基础知识之Dynamic平台调用)
  • .NET简谈设计模式之(单件模式)
  • .Net开发笔记(二十)创建一个需要授权的第三方组件
  • [2]十道算法题【Java实现】
  • [2019/05/17]解决springboot测试List接口时JSON传参异常
  • [ACL2022] Text Smoothing: 一种在文本分类任务上的数据增强方法