当前位置: 首页 > news >正文

1.爬虫数据提取——方法总结

爬虫数据提取——方法总结

在获取了我们想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一般来说有三种方式,分别是Xpath语法,正则表达式和bs4库,只要掌握了这三种方法,可以说html页面上没有什么数据是我们获取不到的。

我们来对这三种方式做一个简单的总结:

解析方式解析速度难度
Xpath中等
bs4容易
re(正则表达式)最快困难

实际上,这三种方式都可以从html页面上获取我们想要的数据,但是由于其基于的原理不太一样,所以他们在解析HTML页面的时候速度页不太一样,一般来说,解析越快的,用起来肯定越难,解析越慢的,用起来肯定更简单一些,这个呢也是很多其它语言等的规律,得到了一方面的性能,就要损失一些东西,所谓“鱼与熊掌不可兼得”。

个人偏向于使用Xpath语法,其次是正则表达式,bs4用的不是很多。因为对于大多数网站来说,使用Xpath语法已然足够,除非当Xpath不好提取的时候,选择使用正则表达式进行提取,当然,在一个数据提取中,我们可以使用混合方式进行数据提取,比如,既使用Xpath语法也使用正则表达式,也可以三者皆用,这个取决于个人的偏好及HTML页面提取的难易程度。


扫描二维码即可参与该课程,解锁更多爬虫知识:

 

 

 

 

 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 如何从结果集中获得随机结果
  • 2.爬虫数据提取——Xpath环境配置
  • Oracle9i新特性:iSQLPLUS
  • 3.爬虫数据提取——Xpath语法
  • 4.爬虫数据提取——lxml库的环境配置
  • 征服---深绿大师
  • Why doesn't Windows 2000 retain my pagefile settings?
  • Anaconda的虚拟环境
  • CSDN Windows专区9X版版主测试题目
  • 6.爬虫数据提取——正则表达式
  • 近读《杨度》(又名旷代逸才)有感
  • 5.爬虫数据提取——正则表达式
  • 今天厦大招聘专场! 主意已定!
  • 7.爬虫数据提取——BeautifulSoup4库
  • 8.爬虫数据提取——bs4的解析引擎介绍
  • ----------
  • 【技术性】Search知识
  • CentOS7 安装JDK
  • CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo
  • ES6 ...操作符
  • flask接收请求并推入栈
  • js正则,这点儿就够用了
  • Spark RDD学习: aggregate函数
  • Vim Clutch | 面向脚踏板编程……
  • vue-router 实现分析
  • webpack入门学习手记(二)
  • 阿里云购买磁盘后挂载
  • 从 Android Sample ApiDemos 中学习 android.animation API 的用法
  • 让你成为前端,后端或全栈开发程序员的进阶指南,一门学到老的技术
  • 文本多行溢出显示...之最后一行不到行尾的解决
  • 再谈express与koa的对比
  • 怎么将电脑中的声音录制成WAV格式
  • 【干货分享】dos命令大全
  • JavaScript 新语法详解:Class 的私有属性与私有方法 ...
  • ​​​​​​​​​​​​​​Γ函数
  • ​520就是要宠粉,你的心头书我买单
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • (vue)el-tabs选中最后一项后更新数据后无法展开
  • (二)构建dubbo分布式平台-平台功能导图
  • (机器学习-深度学习快速入门)第三章机器学习-第二节:机器学习模型之线性回归
  • (三)docker:Dockerfile构建容器运行jar包
  • (四)七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (微服务实战)预付卡平台支付交易系统卡充值业务流程设计
  • (转)C语言家族扩展收藏 (转)C语言家族扩展
  • (转)程序员技术练级攻略
  • (转)利用ant在Mac 下自动化打包签名Android程序
  • (转)平衡树
  • (自用)仿写程序
  • ./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...
  • .NET/C# 使用 #if 和 Conditional 特性来按条件编译代码的不同原理和适用场景
  • .NET处理HTTP请求
  • @SuppressWarnings注解
  • @test注解_Spring 自定义注解你了解过吗?
  • [ vulhub漏洞复现篇 ] AppWeb认证绕过漏洞(CVE-2018-8715)
  • [ 渗透测试面试篇 ] 渗透测试面试题大集合(详解)(十)RCE (远程代码/命令执行漏洞)相关面试题