当前位置: 首页 > news >正文

6.爬虫数据提取——正则表达式

一、单字符匹配规则

方式描述
点(.)匹配任意字符
\d匹配任意数字
\D匹配任意非数字
\s匹配空白字符
\w匹配小写的a-z、大写A-Z、数字0-9和下划线_
\W匹配除小写\w之外的内容
[ ]组合方式进行匹配,满足[ ]内的均可匹配

二、多字符匹配规则

方式描述
星号(*)匹配0个或任意多个字符
加号(+)匹配1个或任意多个字符
问号(?)要么匹配0个,要么匹配1个
{m}匹配指定的m个字符
{m,n}匹配m-n个字符,取最多

三、匹配规则替代方案

方式描述替代方式
\d匹配所有数字[0-9]
\D匹配所有非数字[^0-9]
\w匹配所有数字、字母和下划线[0-9a-zA--Z_]
\W匹配所有非数字、字母和下划线[^0-9a-zA--Z_]
[\w\W]或[\d\D]匹配所有字符 

四、特殊规则

1.在中括号内不再有特殊含义的字符

[.]  [*] [?] 等仅表示匹配点(.)、星号(*)、问号(?)。


扫描二维码即可参与该课程,解锁更多爬虫知识:

 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 近读《杨度》(又名旷代逸才)有感
  • 5.爬虫数据提取——正则表达式
  • 今天厦大招聘专场! 主意已定!
  • 7.爬虫数据提取——BeautifulSoup4库
  • 8.爬虫数据提取——bs4的解析引擎介绍
  • 赵岩最新演绎—最远的你是我最近的爱
  • 1.爬虫数据储存——Excel环境配置
  • 站长其人
  • 爬虫数据储存—CSV文件
  • 对于图的遍历的四种问题
  • 爬虫数据存储—数据库和MySQL
  • 爬虫数据存储—安装MySQL
  • 如何获得当前数据库的SCN值
  • 连接数据库
  • 选择邮件服务器十二要素(转自www.5dmail.net)
  • Asm.js的简单介绍
  • Hibernate【inverse和cascade属性】知识要点
  • js ES6 求数组的交集,并集,还有差集
  • js中forEach回调同异步问题
  • MySQL数据库运维之数据恢复
  • Odoo domain写法及运用
  • spring + angular 实现导出excel
  • 浅析微信支付:申请退款、退款回调接口、查询退款
  • scrapy中间件源码分析及常用中间件大全
  • ​人工智能书单(数学基础篇)
  • (2)空速传感器
  • (2024.6.23)最新版MAVEN的安装和配置教程(超详细)
  • (C语言)字符分类函数
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第5节(封闭类和Final方法)
  • (Mac上)使用Python进行matplotlib 画图时,中文显示不出来
  • (利用IDEA+Maven)定制属于自己的jar包
  • (七)Knockout 创建自定义绑定
  • (七)MySQL是如何将LRU链表的使用性能优化到极致的?
  • .babyk勒索病毒解析:恶意更新如何威胁您的数据安全
  • .bat批处理出现中文乱码的情况
  • .Net Framework 4.x 程序到底运行在哪个 CLR 版本之上
  • .net之微信企业号开发(一) 所使用的环境与工具以及准备工作
  • .Net转前端开发-启航篇,如何定制博客园主题
  • .sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑
  • ::
  • @ 代码随想录算法训练营第8周(C语言)|Day57(动态规划)
  • @synthesize和@dynamic分别有什么作用?
  • [ 转载 ] SharePoint 资料
  • [4]CUDA中的向量计算与并行通信模式
  • [ajaxupload] - 上传文件同时附件参数值
  • [Android] Implementation vs API dependency
  • [AutoSar NVM] 存储架构
  • [C#]winform使用引导APSF和梯度自适应卷积增强夜间雾图像的可见性算法实现夜间雾霾图像的可见度增强
  • [DAU-FI Net开源 | Dual Attention UNet+特征融合+Sobel和Canny等算子解决语义分割痛点]
  • [Hdp] lc552. 学生出勤记录 II(dp+递推+状态定义+状态转移+向前转移+好题)
  • [IE编程] IE中对网页进行截图的编程接口
  • [JAVA数组] 三个数的最大乘积
  • [LeeCode]—Wildcard Matching 通配符匹配问题
  • [Linux]----文件操作(复习C语言+文件描述符)
  • [node] Node.js的Web 模块