当前位置: 首页 > news >正文

前嗅ForeSpider教程:创建模板

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下:

一,模板的概念

模板列表的层级相当于网页跳转的层级。模板一类似于网站首页,每个模板代表了同一层级的页面,通过适当的配置,可以采集全站数据。
正如网站是通过链接之间的跳转,来实现网站各层级页面的连接,ForeSpider也是通过模板中的链接抽取,来实现模板之间的关联。通过抽取网页中的全部链接,再进行精准过滤,就可以既全面又精确的获取所需的全部数据。
正如网站通过正文/数据页展示数据,ForeSpider也是通过模板中的数据抽取,来获取所需数据。

二,模板的配置方式

1.模板的创建
模板的创建,有如下三种情况:
①新建任务后:创建新的任务之后,选择页面需要抽取的内容,点击完成后,软件自动创建对应抽取内容的模板。
②自动创建后续模板:点击配置向导上方的“下一步”,会自动创建模板。
③手动创建模板:点击模板列表上方的添加按钮,创建模板。

2.抽取所需内容
根据内置浏览器显示的页面内容,选择本页面需要抽取的内容。
选择页面抽取内容

clipboard.png

①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)
②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。(>>如何选择表单)
例如:
需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。
软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。

3.如何填写示例地址
(1)模板一的示例地址,自动默认为该任务的采集地址。
(2)其他模板的示例地址,自动默认为上一级模板抽取到的某个链接地址。
(3)如果默认的示例地址不符合需求,可以手动修改示例地址,方法如下:
①采集入口地址(模板一)的选择
一般选择目标网站的入口地址,比如首页。
②示例地址的选择
大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。
例1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。
例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。
例3:只采集某商品的评论信息,该商品的链接地址就是入口地址。

三,模板的高级选项

1、字符编码

默认自动识别。如果该页面未能自动识别发生乱码,需要自行选择字符编码。可以选择GBK或UTF-8。

2、 文档类型

默认自动识别。可以选择采集xml文档。

3、网页类型

适用于一个模板配置大批量网站的情况(可导入上万个采集地址),选择类型后,可以自动过滤不属于该类型的网页,从而达到快速配置的目的。
网页类型包括:全部类型、导航页、列表页、(文本)内容页、详情页、附件、未知页。

4、主题过滤

自动识别网页的语义,并采集属于某些类别的数据,过滤掉不属于某些类别的数据。(针对自动分类器使用,如有需求请联系我们定制。)

5.、未匹配处理模板

适用于一个模板配置大批量网站的情况,当有页面不符合匹配的类型被过滤掉后,可以在此选择一个针对未匹配页面的处理模板,进入其他处理流程。

相关文章:

  • spring cloud构建互联网分布式微服务云平台-SpringCloud集成项目简介
  • MySQL无法启动几种常见问题小结
  • C语言笔记(第一章:C语言编程)
  • sqoop使用手册--mysql配置
  • width 值 max-content、fill-available、min-content 对应作用
  • multimap详讲
  • 剑指offer-树的子结构
  • JavaScript HTML DOM
  • js提交表单错误:document.form.submit() is not a function
  • React as a UI Runtime(五、列表)
  • 如何进阶一名有竞争力的程序员?
  • 实现简单的正则表达式引擎
  • 读写配置文件模块configparser—参考杨永明博客
  • Android的WIFI局域网对讲机
  • todo: 改变字体的动画
  • ----------
  • JS 中的深拷贝与浅拷贝
  • 【干货分享】SpringCloud微服务架构分布式组件如何共享session对象
  • 11111111
  • 8年软件测试工程师感悟——写给还在迷茫中的朋友
  • Angular4 模板式表单用法以及验证
  • CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...
  • CSS盒模型深入
  • Hibernate最全面试题
  • JS专题之继承
  • Nacos系列:Nacos的Java SDK使用
  • PHP 的 SAPI 是个什么东西
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • vue-cli在webpack的配置文件探究
  • vue从入门到进阶:计算属性computed与侦听器watch(三)
  • 如何用vue打造一个移动端音乐播放器
  • 我的面试准备过程--容器(更新中)
  • 移动互联网+智能运营体系搭建=你家有金矿啊!
  • PostgreSQL 快速给指定表每个字段创建索引 - 1
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • ​无人机石油管道巡检方案新亮点:灵活准确又高效
  • (02)vite环境变量配置
  • (12)目标检测_SSD基于pytorch搭建代码
  • (Arcgis)Python编程批量将HDF5文件转换为TIFF格式并应用地理转换和投影信息
  • (C)一些题4
  • (ZT)北大教授朱青生给学生的一封信:大学,更是一个科学的保证
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (附源码)python房屋租赁管理系统 毕业设计 745613
  • (附源码)小程序 交通违法举报系统 毕业设计 242045
  • (三分钟)速览传统边缘检测算子
  • (未解决)jmeter报错之“请在微信客户端打开链接”
  • (一)插入排序
  • (译)2019年前端性能优化清单 — 下篇
  • (原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)
  • (原創) 如何讓IE7按第二次Ctrl + Tab時,回到原來的索引標籤? (Web) (IE) (OS) (Windows)...
  • (转)h264中avc和flv数据的解析
  • (转)创业的注意事项
  • (转)大型网站架构演变和知识体系
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • .Net Attribute详解(上)-Attribute本质以及一个简单示例