当前位置: 首页 > news >正文

模拟ajax实现网络爬虫——HtmlUnit

    最近在用Jsoup抓取某网站数据,可有些页面是ajax请求动态生成的,去群里问了一下,大神说模拟ajax请求即可。去网上搜索了一下,发现了这篇文章,拿过来先用着试试。

   转帖如下:

 

 

网上关于网络爬虫实现方式有很多种,但是很多都不支持Ajax,李兄说:模拟才是王道。确实,如果能够模拟一个没有界面的浏览器,还有什么不能做到的呢? 关于解析Ajax网站的框架也有不少,我选择了HtmlUnit,官方网站:http://htmlunit.sourceforge.net /,htmlunit可以说是一个Java版本的无界面浏览器,几乎无所不能,而且很多东西都封装得特别完美。这是这几天来积累下来的心血,记录一下。

 
  
package com.lanyotech.www.wordbank;

import java.io.FileOutputStream; 
import java.io.IOException; 
import java.io.InputStream; 
import java.io.OutputStream; 
import java.net.MalformedURLException; 
import java.util.List; 
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException; 
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController; 
import com.gargoylesoftware.htmlunit.ScriptResult; 
import com.gargoylesoftware.htmlunit.WebClient; 
import com.gargoylesoftware.htmlunit.html.HtmlOption; 
import com.gargoylesoftware.htmlunit.html.HtmlPage; 
import com.gargoylesoftware.htmlunit.html.HtmlSelect; 

public class WorldBankCrawl { 

    private static String TARGET_URL = "http://databank.worldbank.org/ddp/home.do"; 
    
    public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException { 
        //模拟一个浏览器 
        WebClient webClient = new WebClient(); 
        //设置webClient的相关参数 
        webClient.setJavaScriptEnabled(true); 
        webClient.setCssEnabled(false); 
        webClient.setAjaxController(new NicelyResynchronizingAjaxController()); 
        webClient.setTimeout(35000); 
        webClient.setThrowExceptionOnScriptError(false); 
        //模拟浏览器打开一个目标网址 
        HtmlPage rootPage= webClient.getPage(TARGET_URL); 
        //获取第一个数据库 
        HtmlSelect hs = (HtmlSelect) rootPage.getElementById("lstCubes"); 
        //按要求选择第一个数据库 
        hs.getOption(0).setSelected(true); 
        //模拟点击Next按钮,跳转到第二个页面 
        System.out.println("正在跳转…"); 
        //执行按钮出发的js事件 
        ScriptResult sr = rootPage.executeJavaScript("javascript:setCubeData(2,-1,4,'/ddp');"); 
        
        //跳转到第二个页面,选择国家 
        HtmlPage countrySelect = (HtmlPage) sr.getNewPage(); 
        //获得包含全部国家信息的选择框页面 
        HtmlPage framePage=(HtmlPage)countrySelect.getFrameByName("frmTree1″).getEnclosedPage(); 
        //获得selectAll按钮,触发js事件 
        framePage.executeJavaScript("javascript:TransferListAll(‘countrylst','countrylstselected','no');SetSelectedCount(‘countrylstselected','tdcount');"); 
        //获取Next按钮,触发js事件 
        ScriptResult electricityScriptResult = framePage.executeJavaScript("javascript:wrapperSetCube('/ddp')"); 
        
        System.out.println("正在跳转…"); 
        //跳转到下一个页面electricitySelect 
        HtmlPage electricitySelect = (HtmlPage) electricityScriptResult.getNewPage(); 
        //获得electricity选择的iframe 
        HtmlPage electricityFrame = (HtmlPage) electricitySelect.getFrameByName("frmTree1″).getEnclosedPage(); 
        //获得选择框 
        HtmlSelect seriesSelect = (HtmlSelect) electricityFrame.getElementById("countrylst"); 
        //获得所有的选择框内容 
        List optionList = seriesSelect.getOptions(); 
        //将指定的选项选中 
        optionList.get(1).setSelected(true); 
        //模拟点击select按钮                       electricityFrame.executeJavaScript("javascript:TransferList('countrylst','countrylstselected','no');SetSelectedCount('countrylstselected','tdcount');"); 
        //获取选中后,下面的选择框 
        HtmlSelect electricitySelected = (HtmlSelect) electricityFrame.getElementById("countrylstselected"); 
        List list = electricitySelected.getOptions(); 
        //模拟点击Next按钮,跳转到选择时间的页面 
        ScriptResult timeScriptResult = electricityFrame.executeJavaScript("javascript:wrapperSetCube('/ddp')"); 
        
        System.out.println("正在跳转…"); 
        HtmlPage timeSelectPage = (HtmlPage) timeScriptResult.getNewPage(); 
        //获取选中时间的选择框 
        timeSelectPage = (HtmlPage) timeSelectPage.getFrameByName("frmTree1″).getEnclosedPage(); 
        //选中所有的时间                timeSelectPage.executeJavaScript("javascript:TransferListAll('countrylst','countrylstselected','no');SetSelectedCount('countrylstselected','tdcount');"); 
        //点击Next按钮 
        ScriptResult exportResult = timeSelectPage.executeJavaScript("javascript:wrapperSetCube('/ddp')"); 
        
        System.out.println("正在跳转…"); 
        //转到export页面 
        HtmlPage exportPage = (HtmlPage) exportResult.getNewPage(); 
        //点击页面上的Export按钮,进入下载页面 
        ScriptResult downResult = exportPage.executeJavaScript("javascript:exportData('/ddp' ,'EXT_BULK' ,'WDI_Time=51||WDI_Series=1||WDI_Ctry=244||' );"); 
        
        System.out.println("正在跳转…"); 
        HtmlPage downLoadPage = (HtmlPage) downResult.getNewPage(); 
        //点击Excel图标,开始下载 
        ScriptResult downLoadResult = downLoadPage.executeJavaScript("javascript:exportData('/ddp','BULKEXCEL');"); 
        //下载Excel文件 
        InputStream is = downLoadResult.getNewPage().getWebResponse().getContentAsStream(); 
        
        OutputStream fos = new FileOutputStream("d://test.xls"); 
        byte[] buffer=new byte[1024*30]; 
        int len=-1; 
        while((len=is.read(buffer))>0){ 
            fos.write(buffer, 0, len); 
        } 
        fos.close(); 
        fos.close(); 
        System.out.println("Success!"); 
    } 
} 
 
  

 

注释:

  /**HtmlUnit请求web页面*/  
        WebClient wc = new WebClient();  
        wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器,默认为true  
        wc.getOptions().setCssEnabled(false); //禁用css支持  
        wc.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时,是否抛出异常  
        wc.getOptions().setTimeout(10000); //设置连接超时时间 ,这里是10S。如果为0,则无限期等待  
        HtmlPage page = wc.getPage("http://cq.qq.com/baoliao/detail.htm?294064");  
        String pageXml = page.asXml(); //以xml的形式获取响应文本 


相关文章:

  • 关于冰岛足球的段子
  • Hadoop简单介绍
  • 【菜鸟也疯狂UML系列】——概述
  • 最新发布:数据库防火墙技术市场调研报告
  • 《Android应用开发攻略》——1.4 在Eclipse中创建“Hello, World”应用程序
  • HBase最佳实践-集群规划
  • 《规范敏捷交付:企业级敏捷软件交付的方法与实践》——2.5 事实重于巧辩...
  • 技术热点:Android hook技术浅析
  • 基因测序、大数据分析——精准治癌正在成为现实
  • Python数据结构——AVL树的实现
  • 《Linux高性能服务器编程》——1.6 DNS工作原理
  • 科技大牛专业详解 苹果iOS 史上最大漏洞
  • 《Java 7程序设计入门经典》一2.3 字面量
  • 三年试点牌照尚未发放 2017年虚商前路仍艰辛
  • 2015 湖南省赛 阶乘除法
  • 【跃迁之路】【519天】程序员高效学习方法论探索系列(实验阶段276-2018.07.09)...
  • CEF与代理
  • Flex布局到底解决了什么问题
  • If…else
  • Java到底能干嘛?
  • jquery ajax学习笔记
  • PhantomJS 安装
  • rabbitmq延迟消息示例
  • Tornado学习笔记(1)
  • Vue2.x学习三:事件处理生命周期钩子
  • vue-router 实现分析
  • vue自定义指令实现v-tap插件
  • 番外篇1:在Windows环境下安装JDK
  • 机器学习学习笔记一
  • 精彩代码 vue.js
  • 判断客户端类型,Android,iOS,PC
  • 数组的操作
  • 算法-插入排序
  • 一个项目push到多个远程Git仓库
  • 应用生命周期终极 DevOps 工具包
  • 在weex里面使用chart图表
  • #stm32驱动外设模块总结w5500模块
  • #我与Java虚拟机的故事#连载06:收获颇多的经典之作
  • #在 README.md 中生成项目目录结构
  • $分析了六十多年间100万字的政府工作报告,我看到了这样的变迁
  • (10)Linux冯诺依曼结构操作系统的再次理解
  • (4)Elastix图像配准:3D图像
  • (C#)获取字符编码的类
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (Java数据结构)ArrayList
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (八)光盘的挂载与解挂、挂载CentOS镜像、rpm安装软件详细学习笔记
  • (笔试题)合法字符串
  • (附源码)ssm码农论坛 毕业设计 231126
  • (原創) 如何刪除Windows Live Writer留在本機的文章? (Web) (Windows Live Writer)
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • .net 逐行读取大文本文件_如何使用 Java 灵活读取 Excel 内容 ?
  • .NET学习教程二——.net基础定义+VS常用设置
  • .NET学习全景图
  • .vue文件怎么使用_我在项目中是这样配置Vue的