当前位置：首页 > news >正文

1.爬虫数据提取——方法总结

news 来源：原创 2024/9/21 3:19:14

爬虫数据提取——方法总结

在获取了我们想要的html页面之后，接下来的问题就是如何将我们需要的数据给提取下来，一般来说有三种方式，分别是Xpath语法，正则表达式和bs4库，只要掌握了这三种方法，可以说html页面上没有什么数据是我们获取不到的。

我们来对这三种方式做一个简单的总结：

解析方式	解析速度	难度
Xpath	快	中等
bs4	慢	容易
re(正则表达式)	最快	困难

实际上，这三种方式都可以从html页面上获取我们想要的数据，但是由于其基于的原理不太一样，所以他们在解析HTML页面的时候速度页不太一样，一般来说，解析越快的，用起来肯定越难，解析越慢的，用起来肯定更简单一些，这个呢也是很多其它语言等的规律，得到了一方面的性能，就要损失一些东西，所谓“鱼与熊掌不可兼得”。

个人偏向于使用Xpath语法，其次是正则表达式，bs4用的不是很多。因为对于大多数网站来说，使用Xpath语法已然足够，除非当Xpath不好提取的时候，选择使用正则表达式进行提取，当然，在一个数据提取中，我们可以使用混合方式进行数据提取，比如，既使用Xpath语法也使用正则表达式，也可以三者皆用，这个取决于个人的偏好及HTML页面提取的难易程度。

扫描二维码即可参与该课程，解锁更多爬虫知识：

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

如何从结果集中获得随机结果

2.爬虫数据提取——Xpath环境配置

Oracle9i新特性：iSQLPLUS

3.爬虫数据提取——Xpath语法

4.爬虫数据提取——lxml库的环境配置

征服---深绿大师

Why doesn't Windows 2000 retain my pagefile settings?

Anaconda的虚拟环境

CSDN Windows专区9X版版主测试题目

6.爬虫数据提取——正则表达式

近读《杨度》(又名旷代逸才)有感

5.爬虫数据提取——正则表达式

今天厦大招聘专场! 主意已定!

7.爬虫数据提取——BeautifulSoup4库

8.爬虫数据提取——bs4的解析引擎介绍

----------

【技术性】Search知识

CentOS7 安装JDK

CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo

ES6 ...操作符

flask接收请求并推入栈

js正则，这点儿就够用了

Spark RDD学习: aggregate函数

Vim Clutch | 面向脚踏板编程……

vue-router 实现分析

webpack入门学习手记（二）

阿里云购买磁盘后挂载

从 Android Sample ApiDemos 中学习 android.animation API 的用法

让你成为前端，后端或全栈开发程序员的进阶指南，一门学到老的技术

文本多行溢出显示...之最后一行不到行尾的解决

再谈express与koa的对比

怎么将电脑中的声音录制成WAV格式

【干货分享】dos命令大全

JavaScript 新语法详解：Class 的私有属性与私有方法 ...

520就是要宠粉，你的心头书我买单

七周四次课（5月9日)iptables filter表案例、iptables nat表应用

(vue)el-tabs选中最后一项后更新数据后无法展开

（二）构建dubbo分布式平台-平台功能导图

（机器学习-深度学习快速入门）第三章机器学习-第二节：机器学习模型之线性回归

(三)docker：Dockerfile构建容器运行jar包

（四）七种元启发算法（DBO、LO、SWO、COA、LSO、KOA、GRO）求解无人机路径规划MATLAB

(微服务实战)预付卡平台支付交易系统卡充值业务流程设计

(转)C语言家族扩展收藏 (转)C语言家族扩展

（转）程序员技术练级攻略

(转)利用ant在Mac 下自动化打包签名Android程序

（转）平衡树

(自用)仿写程序

./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...

.NET/C# 使用 #if 和 Conditional 特性来按条件编译代码的不同原理和适用场景

.NET处理HTTP请求

@SuppressWarnings注解

@test注解_Spring 自定义注解你了解过吗？

[ vulhub漏洞复现篇 ] AppWeb认证绕过漏洞（CVE-2018-8715）

[ 渗透测试面试篇 ] 渗透测试面试题大集合(详解)（十）RCE (远程代码/命令执行漏洞)相关面试题