当前位置: 首页 > news >正文

前嗅ForeSpider脚本教程:链接脚本

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

链接脚本是链接抽取中的脚本。配置了链接脚本,链接的抽取流程将被改变: 脚本未正确返回dom区域节点,则该链接抽取的规则将完全由该脚本控制。

2.如果脚本返回了一个正确的dom区域节点,则此链接抽取以返回的区域节点为基准,区域外的链接将被过滤掉。

一.可用全局对象(只读)

EXTRACT: 当前采集引擎[ 对象类型: extractor ]

DATADB: 当前连接的数据库[ 对象类型: dataBase ]

RESULT: 当前结果集对象[ 对象类型: result ]

URL: 当前采集的链接对象[ 对象类型: url ]

URLTEXT : 描述当前链接采集的所有状态及属性的对象[ 对象类型: urltext ]

DOC: 当前采集的文档对象[ 对象类型: grabDoc ]

DOM: 当前采集文档的dom对象[ 对象类型: dom ]

ITEM: 模板区域的dom树节点(如果模板未选择区域则为dom树的根节点)[ 对象类型: domItem ]

TMPL: 当前文档模板对象[ 对象类型: tmplTmpl ]

二.this对象

当前链接抽取[tmplLink]对象。

三.脚本返回值

如果要采集某个特征区域内的链接,则必须返回该区域的dom节点( domItem对象)。 否则该链接抽取则完全由脚本控制。

示例

采集第一个Form表单中的链接:

return DOM.FindName("form");

在链接模板需要的链接无法用爬虫过滤得到,就要写链接脚本。下面是每个链接脚本必有的代码:

url u;

u.title = "";

u.urlname = "";

u.tmplid = 3;

u.entryid = CHANN.id;

RESULT.AddLink(u);

转载于:https://my.oschina.net/forespider/blog/3028559

相关文章:

  • Chrome 控制台console的用法(学了之后对于调试js可是大大有用的哦)
  • ajax----tomact服务器运行
  • 软件测试工程师的核心竞争力是什么?
  • SQL-乐观锁,悲观锁之于并发
  • iOS:“Invalid top-level type in JSON write”引起程序闪退
  • 支付宝花15年解决的这个问题,顶得上做出十个支付宝 ...
  • 真正的反演笔记
  • 作为面试官的一点点感悟,谈谈技术人的成长之路
  • 阿里程序员工作小技巧:理解CPU分支预测,提高代码效率
  • Ubuntu18.04配置双网卡、双路由
  • 刚刚,阿里发布AI谣言粉碎机,识别准确率达81%
  • 如何通过StackStorm自动支持2万多台服务器
  • 流动的SVG线条
  • Spring框架IOC和AOP的实现原理(概念)
  • 使用GlobalSSH加速Ansible海外部署效率
  • 收藏网友的 源程序下载网
  • 【译】理解JavaScript:new 关键字
  • ECMAScript 6 学习之路 ( 四 ) String 字符串扩展
  • java8 Stream Pipelines 浅析
  • Javascript Math对象和Date对象常用方法详解
  • js继承的实现方法
  • PHP 使用 Swoole - TaskWorker 实现异步操作 Mysql
  • spark本地环境的搭建到运行第一个spark程序
  • 前言-如何学习区块链
  • 微信小程序--------语音识别(前端自己也能玩)
  • 阿里云ACE认证之理解CDN技术
  • #define用法
  • (10)Linux冯诺依曼结构操作系统的再次理解
  • (16)UiBot:智能化软件机器人(以头歌抓取课程数据为例)
  • (八)Docker网络跨主机通讯vxlan和vlan
  • (独孤九剑)--文件系统
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • (转)h264中avc和flv数据的解析
  • (转)关于pipe()的详细解析
  • (轉貼) 2008 Altera 亞洲創新大賽 台灣學生成果傲視全球 [照片花絮] (SOC) (News)
  • .gitignore文件—git忽略文件
  • .net core IResultFilter 的 OnResultExecuted和OnResultExecuting的区别
  • .NET Core WebAPI中封装Swagger配置
  • .NET 动态调用WebService + WSE + UsernameToken
  • .NET大文件上传知识整理
  • /proc/stat文件详解(翻译)
  • []error LNK2001: unresolved external symbol _m
  • [20171106]配置客户端连接注意.txt
  • [autojs]逍遥模拟器和vscode对接
  • [C#基础知识]专题十三:全面解析对象集合初始化器、匿名类型和隐式类型
  • [C++] new和delete
  • [halcon案例2] 足球场的提取和射影变换
  • [luogu P1527]矩阵乘法(矩形k小)
  • [Machine Learning] 领域适应和迁移学习
  • [MongoDB]------windos下的安装部署与基础使用
  • [NISACTF 2022]sign-ezc++
  • [NOI2020统一省选 A] 组合数问题 (推式子)
  • [poj 3461]Oulipo[kmp]
  • [ROS2] --- ROS diff ROS2
  • [Swift]计数排序 | Counting sort【用微信查看本文链接可查看到引用图片】