6.爬虫数据提取——正则表达式
一、单字符匹配规则
方式 | 描述 |
点(.) | 匹配任意字符 |
\d | 匹配任意数字 |
\D | 匹配任意非数字 |
\s | 匹配空白字符 |
\w | 匹配小写的a-z、大写A-Z、数字0-9和下划线_ |
\W | 匹配除小写\w之外的内容 |
[ ] | 组合方式进行匹配,满足[ ]内的均可匹配 |
二、多字符匹配规则
方式 | 描述 |
星号(*) | 匹配0个或任意多个字符 |
加号(+) | 匹配1个或任意多个字符 |
问号(?) | 要么匹配0个,要么匹配1个 |
{m} | 匹配指定的m个字符 |
{m,n} | 匹配m-n个字符,取最多 |
三、匹配规则替代方案
方式 | 描述 | 替代方式 |
\d | 匹配所有数字 | [0-9] |
\D | 匹配所有非数字 | [^0-9] |
\w | 匹配所有数字、字母和下划线 | [0-9a-zA--Z_] |
\W | 匹配所有非数字、字母和下划线 | [^0-9a-zA--Z_] |
[\w\W]或[\d\D] | 匹配所有字符 |
四、特殊规则
1.在中括号内不再有特殊含义的字符
[.] [*] [?] 等仅表示匹配点(.)、星号(*)、问号(?)。
扫描二维码即可参与该课程,解锁更多爬虫知识: