当前位置：首页 > news >正文

基于Web-Harvest精确采集互联网的数据

news 来源：原创 2024/5/20 5:16:26

一、背景

在当前信息空前爆炸的时代，人们不再担心信息的匮乏，而是为筛选有用的信息付出大量的代价。那么如何采集有用的信息呢？现在有RSS、博客等服务，但是并不能完全满足我们的需求，因为很多信息并不是以格式化的数据形式提供出来，于是聪明的工程师想出了精确搜索的方法，从而出现大量的垂直搜索网站（比如酷讯），确实火了一把。当然我们无法得知他们是怎么实现的，但是我们也可以实现这种精确采集，开源的Web-Harvest就是类似的技术，之前曾经接触过，故写出来分享给大家。

二、WebHarvest简介

Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的，你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面，它也能通过写自己的Java 方法来轻易扩展其提取能力。

Web-Harvest 的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法，而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据和控制流程，每一个处理器被看作是一个函数，它拥有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式，这样使得它们可以以链式的形式来执行，此外为了更易于数据操作和重用， Web-Harvest 还提供了变量上下方用于存储已经声明的变量。以下的图表就描述了这种管道式处理器的执行情况 :

上述流程的执行结果可以存储在执行中创建的文件中或者是编程时的上下文环境中使用。

一、配置语言

每个提取过程都被定义在了一个或多个基于 XML 的配置文件中，而且被描述为特定的或是结构化的 XML 元素中。为了更好地说明，下面列举了一个配置文件来进行说明：

<!– 页面爬取开始 , 按照关键词：“玩具”来搜索 –>

<var-def name=”start” >

<html-to-xml>

</html-to-xml>

</var-def>

<!– 获取竞价排名的企业网站列表 –>

<var-def name=”urlList” >

</xpath>

</var-def>

<!– 循环 urlList ，并把结果写入到 XML 文件中 –>

<![CDATA[ <catalog> ]]>

<body>

<xq-param name=”item” type=”node()”><var name=”item”/></xq-param>

<xq-expression><![CDATA[

declare variable $item as node() external;

let $name := data($item//span/font[1]/text()[1])

let $url := data($item//span/font[2]/text())

return

<name>{normalize-space($name)}</name>

<url>{normalize-space($url)}</url>

</website>

]]></xq-expression>

</xquery>

</body>

</loop>

<![CDATA[ </catalog> ]]>

</file>

</config>

上述的配置文件包含了三段。

第一段的执行步骤：

1. 下载 http://www.baidu.com/s?wd=玩具里面的内容；

2. 清除下载内容里面的 HTML 以产生 XHTML;

第二段的执行步骤：

1. 用 XPath 表达式从所给的 URL 里面提取搜索结果；

2. 用一个新的变量“ urlList ”来保存上面的搜索结果；

第三段是利用上一段的搜索结果来提取相应的信息：

1. 循环里面迭代每一个 item ；

2. 获取每个 item 的 name 和 url ；

3. 将其保存在文件系统里；

有了配置文件（把该配置文件保存为 :baidu.xml ），我们再往前一步，写几行代码：

import java.io.IOException;
import org.webharvest.definition.ScraperConfiguration;
import org.webharvest.runtime.Scraper;

public class Test {

public static void main(String[] args) throws IOException {

        ScraperConfiguration config = new ScraperConfiguration(”c:/baidu.xml”);
        Scraper scraper = new Scraper(config, “c:/tmp/”);
        scraper.setDebug(true);

        long startTime = System.currentTimeMillis();
        scraper.execute();
        System.out.println(”time elapsed: ” + (System.currentTimeMillis() - startTime));

    }
}

让我们执行一下，看看结果：

<url>www.liqiang-toy.com</url>

</website>

<url>www.yonglangplay.com</url>

</website>

</website>

<url>c49.txooo.js.cn</url>

</website>

</website>

<url>www.xmcaili.com</url>

</website>

<url>www.tengyuetoys.com</url>

</website>

<url>b146.txooo.com</url>

</website>

</catalog>

是不是很酷。爬虫就这么简单。

二、深入考虑

不知道大家看到上面的配置、代码和结果是否感觉很熟悉。是否和 Java 通过 Ibatis 读取数据库数据的方式类似。

那我们是否可以实现这样的机制呢，把整个互联网作为我们的庞大的数据库，我们随意的读取。

Web-Harvest 提供了一个 ScraperContext , 可以在该上下文中设置 Java 对象，可以通过 Java 对象收集相应的结果数据，（比如：设置 Map, 可以通过 Map 收集数据）

Scraper 提供了这样的方法：

scraper.getContext().put(“resDataSet”, new ResultDataSet());

ResultDataSet 是收集数据的 Java 对象。

那么我们就可以这么做：

a) 首先设置要访问的网页的路径

scraper.getContext().put(“startPageHref”, “http://www.baidu.com/s?cl=3&wd= 儿童玩具 “);

b) 第二步，设置要收集返回数据的容器

scraper.getContext().put(“resDataSet”, new ResultDataSet());

c) 在配置文件中就可以这样设置数据

${resDataSet.addRecord(“searchResult”,“totalSearchResult”,totalSearchResult)};

d) 爬取操作执行完毕后，即可返回数据：

ResultDataSet resultDataSet = (ResultDataSet)scraper.getContext().get(“resDataSet”);

Ok ，我们就可以随心所欲的使用这些数据，详细请看附件。

三、分页机制处理

a) 来由介绍

现在的信息量很大，在展示的时候都是通过分页处理的。比如：

a) 实现机制

那我们怎么处理呢？分页提取数据我们得明确几件事情

1. 分页器的处理，比如：页码、页大小、记录数或页数。

2. “下一页”的地址的构造

3. 每页数据的爬取

不同的网站的分页机制都不一样，我们如何处理呢？当然我们不能通过硬编码的方式来处理，我们就通过Web-Harvest的配置文件来实现。

Web-Harvest 本身的配置文件结构为：

配置信息

</config>

对这个结构进行扩展：

<web-harvest-config>

<!– 生成分页器配置 –>

配置信息

</config>

<!– 组装下一页地址 –>

配置信息

</config>

<!– 抓取列表数据 –>

配置信息

</config>

</web-harvest-config>

我们就可以通过三个config项来处理

l 第一步，通过 id=”pagination” 的配置生成分页器

l 第二步，通过已经生成的分页器加上 id=”urlnav” 的配置构造下一页的URL

l 第三步，通过 id=”listData” 的配置提取需要的数据

一、Web-Harvest的优缺点

优点：

l Web-Harvest是一个使用比较方便的抓取信息的API库，目前是1.0版本

l 扩展性好，只要修改配置文件即可

l 上手较快，使用方便。

缺点：

l 处理过程比较多，对应的速度较慢

二、其他使用过或者正在尝试的精确抓取数据的方式

a) 使用HTMLParser

HTMLParser可以分析HTML 源码中的TAG（比如Table，DIV等），还可以自己定义TAG（比如：ENET），通过查找特定的Tag，提取相应的数据。由于没有很多的中间处理过程，速度较快，缺点是有很多的硬编码，难以扩展。或许能找出一个特定的表达式可以快速的提取数据。

b) 使用HTMLClean

该方式还是走HTML->XML的路线，首先通过HtmlClean把抓取的网页内容转化为XML格式数据，然后通过XPATH、XSL等方式对XML数据进行转化，达到收集数据的目的。Web-Harvest是类似的方式，但是我们可以精简化，提高抓取的效率。

三、使用爬虫碰到的问题

a) 网站对频繁抓取数据的爬虫进行IP限制问题

考虑使用IP代理，但是速度难以忍受，故现在在考虑分布式的抓取数据的方式

四、相关参考

http://web-harvest.sourceforge.net

转载于:https://blog.51cto.com/anxiongbo/186930

Linux下基于密钥的安全验证实现方法

类似百度Google的搜索

世界上最神秘的部门

远程mysql权限

什么行业最有前途教你如何在IT业拿高薪!

linux引导时输入特殊信息的含义

CCNA工作指南~

60道Unix试题检验你的水平

通过样式调整input 中password text默认长度

图解入侵过程，黑客未来！

django传递嵌套对象给flex前端的方法(原创)

强大的DataGrid组件[8]_内嵌ComboBox动态数据联动——Silverlight学习笔记[16]

在 Ubuntu 下如何用 Mplayer 看影片

Java网络编程从入门到精通（33）：非阻塞I/O的缓冲区（Buffer）

How to map remote network drive

「前端早读君006」移动开发必备：那些玩转H5的小技巧

【Redis学习笔记】2018-06-28 redis命令源码学习1

【译】React性能工程(下) -- 深入研究React性能调试

CAP 一致性协议及应用解析

Git的一些常用操作

golang 发送GET和POST示例

Java教程_软件开发基础

leetcode-27. Remove Element

Nodejs和JavaWeb协助开发

node和express搭建代理服务器（源码）

Rancher如何对接Ceph-RBD块存储

Spring-boot 启动时碰到的错误

SQL 难点解决：记录的引用

Transformer-XL: Unleashing the Potential of Attention Models

Unix命令

安卓应用性能调试和优化经验分享

从PHP迁移至Golang - 基础篇

漂亮刷新控件-iOS

悄悄地说一个bug

数据科学第 3 章 11 字符串处理

Unity3D - 异步加载游戏场景与异步加载游戏资源进度条 ...

VRRP 虚拟路由冗余协议（华为）

# MySQL server 层和存储引擎层是怎么交互数据的？

#mysql 8.0 踩坑日记

#我与Java虚拟机的故事#连载15：完整阅读的第一本技术书籍

#预处理和函数的对比以及条件编译

（9）目标检测_SSD的原理

（超简单）使用vuepress搭建自己的博客并部署到github pages上

（附源码）springboot 房产中介系统毕业设计 312341

（力扣）循环队列的实现与详解（C语言）

（南京观海微电子）——COF介绍

（三）centos7案例实战—vmware虚拟机硬盘挂载与卸载

（四）Controller接口控制器详解（三）

（转）利用PHP的debug_backtrace函数，实现PHP文件权限管理、动态加载【反射】...

.NET 反射 Reflect

.net6 webapi log4net完整配置使用流程

.Net中ListT 泛型转成DataTable、DataSet

@JSONField或@JsonProperty注解使用

[Android] Upload package to device fails #2720

[BUUCTF 2018]Online Tool

相关文章：