当前位置: 首页 > news >正文

爬虫之re数据清洗

文章目录

  • 一、正则【Regular】
  • 二、重要语法
    • 1、获取内容: 左边(.*?)右边
    • 2、替换数据: re.sub('源数据|源数据', '目标数据', 字符串)


一、正则【Regular】

概念: 根据程序员的指示, 从<字符串>中提取数据
结果: 列表
使用频率: 正则跟xpath相比, 正则是弟弟

二、重要语法

1、获取内容: 左边(.*?)右边

代码示例如下:

import re
data = 'name: 张三; age: 18岁; addr: 北京; height: 180cm'
result = re.findall('; age: (.*?); ', data)
print(result)

运行结果如下:

['18岁']

注意:re.findall()方法返回结果是列表

2、替换数据: re.sub(‘源数据|源数据’, ‘目标数据’, 字符串)

代码示例如下:

import re
data = 'python  真 的 \t \n 非常 & * P  好用'
result = re.sub('\t|\n| |&|\*|P', '', data)
print(result)

运行结果如下:

python真的非常好用

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • java —— 连接 MySQL 操作
  • Spring Boot Interceptor(拦截器使用及原理)
  • FltSendMessage 超时时间相关问题
  • 华为HCIP认证H12-831新增变题
  • 基于Netty实现安全认证的WebSocket(wss)服务端
  • 知识分享:隔多久查询一次网贷大数据信用报告比较好?
  • qt for android 重新编译Qt6Android.jar
  • 大整数运算详解升级版
  • 速盾:负载均衡能防ddos攻击吗?
  • 学 Java 具体能干什么?
  • 我的创作纪念日——我与CSDN一起走过的128天
  • 选择排序与堆排序
  • Rust开源Web框架Salvo源码编译
  • Vue中引入组件需要哪三步
  • PostgreSQL的扩展(extensions)-常用的扩展之pg_store_plans
  • [数据结构]链表的实现在PHP中
  • 【MySQL经典案例分析】 Waiting for table metadata lock
  • Debian下无root权限使用Python访问Oracle
  • ES6系列(二)变量的解构赋值
  • JavaScript中的对象个人分享
  • js操作时间(持续更新)
  • k个最大的数及变种小结
  • nginx(二):进阶配置介绍--rewrite用法,压缩,https虚拟主机等
  • Vue 重置组件到初始状态
  • 笨办法学C 练习34:动态数组
  • 搭建gitbook 和 访问权限认证
  • 给初学者:JavaScript 中数组操作注意点
  • 和 || 运算
  • 前端性能优化——回流与重绘
  • 如何邀请好友注册您的网站(模拟百度网盘)
  • 微信开放平台全网发布【失败】的几点排查方法
  • 微信开源mars源码分析1—上层samples分析
  • 线上 python http server profile 实践
  • 想晋级高级工程师只知道表面是不够的!Git内部原理介绍
  • 找一份好的前端工作,起点很重要
  • 走向全栈之MongoDB的使用
  • FaaS 的简单实践
  • 阿里云API、SDK和CLI应用实践方案
  • 进程与线程(三)——进程/线程间通信
  • ​2021半年盘点,不想你错过的重磅新书
  • ​LeetCode解法汇总2808. 使循环数组所有元素相等的最少秒数
  • # Apache SeaTunnel 究竟是什么?
  • (007)XHTML文档之标题——h1~h6
  • (10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
  • (4)通过调用hadoop的java api实现本地文件上传到hadoop文件系统上
  • (55)MOS管专题--->(10)MOS管的封装
  • (笔试题)分解质因式
  • (附源码)c#+winform实现远程开机(广域网可用)
  • (附源码)ssm智慧社区管理系统 毕业设计 101635
  • (回溯) LeetCode 78. 子集
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (一)插入排序
  • ***监测系统的构建(chkrootkit )
  • .helper勒索病毒的最新威胁:如何恢复您的数据?
  • .NET COER+CONSUL微服务项目在CENTOS环境下的部署实践