当前位置: 首页 > news >正文

前嗅ForeSpider教程:链接抽取

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

今天,小编为大家带来的是:在前嗅ForeSpider采集过程中,链接抽取操作中的一系列知识点,主要内容有:如何关联模板,如何判断模板关联是否正确,选择链接类型以及过滤的三种方式。具体内容如下:

一,如何关联模板

“链接抽取”抽出链接后,需要采集这些链接所在的页面。我们从这些链接中,选择其中一个作为下一层模板的示例地址,通过关联模板,可以将两个模板连接起来,实现页面的跳转。

在软件中模板的关联关系,与网页中链接跳转的关系相同,因此可以完整的采集数据。

关联方式如下:

①自动关联:软件会根据用户创建模板的情况,帮助用户自动关联。

②手动关联:用户可在链接抽取节点进行手动关联。

【关联模板】

二,如何判断模板关联是否正确

①在软件中模板的关联关系,与网页中链接跳转的关系相同。如模板一的示例地址为:http://news.ifeng.com/o/dynpage/64-/1/plist.shtml

【关联模板】

②通过模板一示例地址,点击模板一中任意一条链接,进入需要采集数据的页面,该页面链接即为模板二的示例地址。

【模板一地址】

③所以此时模板一中的链接抽取,需要关联模板二。

【模板二地址】

三,如何选择链接类型

链接类型可分为href和src两种。

  1. href

默认选项。适用于超链接、按钮、CSS文件。

  1. src

适用于图片/视频/音频/资源文件/JS文件等。

四,过滤方法

过滤方式一:智能过滤

智能过滤可以一键过滤出,链接地址规律相同的链接。适用于大多数情况,如过滤的不正确,可以使用方式三:地址/标题过滤。 操作方法如下:

①在链接抽取节点,按Ctrl+鼠标左键,在内置浏览器上点击所需获取的链接,点击“智能过滤”按钮。

②点击软件右上角“采集预览”按钮,查看是否过滤完全。

过滤方式二:定位过滤

定位过滤是通过内置浏览器定位,适用于所需链接都集中在一小片区域的情况。

操作方法如下:

①在链接抽取节点,按Ctrl在内置浏览器上点击(扩大选区按Shift),选中所需链接的区域,点击“确认选区”按钮。

②点击软件右上角“采集预览”按钮,查看是否过滤完全。

过滤方式三:地址/标题过滤

为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。

(1)地址过滤:通过url地址的规律,过滤无关链接。

(2)标题过滤:通过链接标题的规律,过滤无关链接。

① 地址(标题)过滤节点的配置内容

② 过滤串规则说明

转载于:https://my.oschina.net/forespider/blog/3013732

相关文章:

  • 谷歌支付Purchases验证中的purchaseType
  • .NET分布式缓存Memcached从入门到实战
  • 转行程序员深漂的这三年 #2
  • ES6 学习笔记(一)let,const和解构赋值
  • 「镁客·请讲」商询科技李劼:用MR拯救“垃圾大数据”,重构知识图谱是制胜关键...
  • 10个最佳ES6特性 ES7与ES8的特性
  • 你以为AI只能帮景区刷脸买票?其实它的用处还有很多
  • 230. Kth Smallest Element in a BST
  • vss使用笔记
  • 使用 Docker 部署 Spring Boot项目
  • luogu P1706全排列问题
  • 前端 CSS : 5# 纯 CSS 实现24小时超市
  • git
  • Mysql数据库的条件查询语句
  • 观《时间的朋友2017》总结
  • 【翻译】babel对TC39装饰器草案的实现
  • 【跃迁之路】【585天】程序员高效学习方法论探索系列(实验阶段342-2018.09.13)...
  • css的样式优先级
  • ES6系统学习----从Apollo Client看解构赋值
  • Golang-长连接-状态推送
  • iOS小技巧之UIImagePickerController实现头像选择
  • javascript面向对象之创建对象
  • js面向对象
  • Linux CTF 逆向入门
  • 更好理解的面向对象的Javascript 1 —— 动态类型和多态
  • 快速构建spring-cloud+sleuth+rabbit+ zipkin+es+kibana+grafana日志跟踪平台
  • 浏览器缓存机制分析
  • 如何用vue打造一个移动端音乐播放器
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 消息队列系列二(IOT中消息队列的应用)
  • 一个6年java程序员的工作感悟,写给还在迷茫的你
  • 一个完整Java Web项目背后的密码
  • 优秀架构师必须掌握的架构思维
  • 原生 js 实现移动端 Touch 滑动反弹
  • Spring Batch JSON 支持
  • 积累各种好的链接
  • ​DB-Engines 12月数据库排名: PostgreSQL有望获得「2020年度数据库」荣誉?
  • # include “ “ 和 # include < >两者的区别
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • ## 临床数据 两两比较 加显著性boxplot加显著性
  • #includecmath
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (2.2w字)前端单元测试之Jest详解篇
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (TOJ2804)Even? Odd?
  • (附源码)springboot掌上博客系统 毕业设计063131
  • (附源码)ssm高校社团管理系统 毕业设计 234162
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (转)chrome浏览器收藏夹(书签)的导出与导入
  • (转)负载均衡,回话保持,cookie
  • .[backups@airmail.cc].faust勒索病毒的最新威胁:如何恢复您的数据?
  • .NET 5.0正式发布,有什么功能特性(翻译)
  • .NET Core 通过 Ef Core 操作 Mysql
  • .NET core 自定义过滤器 Filter 实现webapi RestFul 统一接口数据返回格式
  • .net framework profiles /.net framework 配置