当前位置: 首页 > news >正文

Java常用的API_02(正则表达式、爬虫)

Java正则表达式

  • 七、正则表达式
    • 7.1 格式
      • 7.1.1 字符类
        • 注意
        • 字符类示例代码1
        • 例2
      • 7.1.2 预定义字符
        • 预定义字符示例代码
        • 例2
      • 7.1.3 区别总结
    • 7.2 使用`Pattern`和`Matcher`类与直接使用`String`类的`matches`方法的区别。
      • (1) 使用`Pattern`和`Matcher`类
        • 示例代码
      • (2)直接使用`String`类的`matches`方法
        • 示例代码
      • (3)区别总结
      • (4)示例对比
          • 使用`Pattern`和`Matcher`类
        • 直接使用`String`类的`matches`方法
    • 7.3 数量词
    • 7.4这是一个正则表达式符号的总结表。
      • 7.4.1 各个符号
        • 解释
      • 7.4.2 量词总结表。
        • 解释
  • 八、爬虫
    • 8.1 条件爬取
      • 8.1.1 正向预查
      • 8.1.2 其他的
    • 8.2贪婪爬取
    • 8.3 正则表达式中的方法
    • 8.4 分组
      • 8.4.1 首尾相同单字符 abc123cba
      • 8.4.2 首尾相同多字符abc123abc
      • 8.4.3 开始的样式和结束的样式一样aaa12aaa

七、正则表达式

正则表达式是一种强大的文本匹配工具,用于在字符串中搜索和匹配特定模式的文本。
在Java中,正则表达式由java.util.regex包提供支持。它可以用于验证输入的格式、提取文本中的特定部分、替换文本等操作。

7.1 格式

7.1.1 字符类

字符类用于匹配一组字符中的任意一个字符。字符类用方括号[]括起来,表示在这些字符中匹配一个字符。

  • [abc]:匹配字符a、b或c。
  • [^abc]:匹配除a、b、c之外的任何字符。
  • [a-zA-Z]:匹配从a到z或从A到Z的任意一个字符。
  • [a-d[m-p]]:匹配a到d或m到p的任意一个字符。
  • [a-z&&[def]]:匹配a到z和def的交集,即d、e、f。
  • [a-z&&[^bc]]:匹配a到z并且不包括b和c的字符(即[ad-z])。
  • [a-z&&[^m-p]]:匹配a到z并且不包括m到p的字符(即[a-lq-z])。
注意
  • [a-z&&[def]]:匹配a到z和def的交集,即d、e、f。
  • 像这样的&&,必须是两个,如果是一个&,就只是说明其是一个‘&’字符符号
字符类示例代码1
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class CharClassExample {public static void main(String[] args) {// 匹配a、b或c中的任意一个字符String regex1 = "[abc]";String input1 = "apple";System.out.println(matchesPattern(regex1, input1)); // true// 匹配除a、b、c之外的任何字符String regex2 = "[^abc]";String input2 = "def";System.out.println(matchesPattern(regex2, input2)); // true// 匹配从a到z或从A到Z的任意一个字符String regex3 = "[a-zA-Z]";String input3 = "Hello";System.out.println(matchesPattern(regex3, input3)); // true// 匹配a到d或m到p的任意一个字符String regex4 = "[a-d[m-p]]";String input4 = "cat";System.out.println(matchesPattern(regex4, input4)); // true// 匹配a到z和def的交集,即d、e、fString regex5 = "[a-z&&[def]]";String input5 = "dog";System.out.println(matchesPattern(regex5, input5)); // true// 匹配a到z并且不包括b和c的字符String regex6 = "[a-z&&[^bc]]";String input6 = "apple";System.out.println(matchesPattern(regex6, input6)); // true// 匹配a到z并且不包括m到p的字符String regex7 = "[a-z&&[^m-p]]";String input7 = "hello";System.out.println(matchesPattern(regex7, input7)); // true}private static boolean matchesPattern(String regex, String input) {Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(input);return matcher.find();}
}
例2
public class CharClassExample {public static void main(String[] args) {// 只能是 a b cSystem.out.println("----------1----------");System.out.println("a".matches("[abc]")); // trueSystem.out.println("k".matches("[abc]")); // false// 不能出现 a b cSystem.out.println("----------2----------");System.out.println("a".matches("[^abc]")); // falseSystem.out.println("z".matches("[^abc]")); // trueSystem.out.println("zz".matches("[^abc]")); // falseSystem.out.println("zz".matches("[^abc][^abc]")); // true// a到z A到Z (包括头尾的范围)System.out.println("----------3----------");System.out.println("a".matches("[a-zA-Z]")); // trueSystem.out.println("Z".matches("[a-zA-Z]")); // trueSystem.out.println("aa".matches("[a-zA-Z]")); // falseSystem.out.println("zz".matches("[a-zA-Z]")); // falseSystem.out.println("0".matches("[a-zA-Z]")); // false}
}

7.1.2 预定义字符

匹配一组字符中的任意一个字符,其用于简化正则表达式的书写。

  • .:匹配任意字符。
  • \d:匹配一个数字字符,相当于[0-9]
  • \D:匹配一个非数字字符,相当于[^0-9]
  • \s:匹配一个空白字符,包括空格、制表符、换行符等,相当于[\t\n\x0B\f\r]
  • \S:匹配一个非空白字符,相当于[^\s]
  • \w:匹配一个单词字符,包括字母、数字和下划线,相当于[a-zA-Z_0-9]
  • \W:匹配一个非单词字符,相当于[^\w]

通过使用这些字符类和预定义字符,可以构建出复杂的正则表达式来匹配特定的文本模式。

预定义字符示例代码
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class PredefinedCharExample {public static void main(String[] args) {// 匹配任意字符String regex1 = ".";String input1 = "a";System.out.println(matchesPattern(regex1, input1)); // true// 匹配一个数字字符String regex2 = "\\d";String input2 = "5";System.out.println(matchesPattern(regex2, input2)); // true// 匹配一个非数字字符String regex3 = "\\D";String input3 = "a";System.out.println(matchesPattern(regex3, input3)); // true// 匹配一个空白字符String regex4 = "\\s";String input4 = " ";System.out.println(matchesPattern(regex4, input4)); // true// 匹配一个非空白字符String regex5 = "\\S";String input5 = "a";System.out.println(matchesPattern(regex5, input5)); // true// 匹配一个单词字符String regex6 = "\\w";String input6 = "a";System.out.println(matchesPattern(regex6, input6)); // true// 匹配一个非单词字符String regex7 = "\\W";String input7 = "!";System.out.println(matchesPattern(regex7, input7)); // true}private static boolean matchesPattern(String regex, String input) {Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(input);return matcher.find();}
}
例2
public class PredefinedCharExample {public static void main(String[] args) {// 匹配任意字符System.out.println("----------1----------");System.out.println("a".matches(".")); // trueSystem.out.println("1".matches(".")); // trueSystem.out.println(" ".matches(".")); // trueSystem.out.println("\n".matches(".")); // false// 匹配一个数字字符System.out.println("----------2----------");System.out.println("5".matches("\\d")); // trueSystem.out.println("a".matches("\\d")); // false// 匹配一个非数字字符System.out.println("----------3----------");System.out.println("a".matches("\\D")); // trueSystem.out.println("5".matches("\\D")); // false// 匹配一个空白字符System.out.println("----------4----------");System.out.println(" ".matches("\\s")); // trueSystem.out.println("\t".matches("\\s")); // trueSystem.out.println("a".matches("\\s")); // false// 匹配一个非空白字符System.out.println("----------5----------");System.out.println("a".matches("\\S")); // trueSystem.out.println(" ".matches("\\S")); // false// 匹配一个单词字符System.out.println("----------6----------");System.out.println("a".matches("\\w")); // trueSystem.out.println("1".matches("\\w")); // trueSystem.out.println("_".matches("\\w")); // trueSystem.out.println("!".matches("\\w")); // false// 匹配一个非单词字符System.out.println("----------7----------");System.out.println("!".matches("\\W")); // trueSystem.out.println("a".matches("\\W")); // false}
}

在Java中,使用正则表达式进行字符串匹配时,字符类和预定义字符的写法有一些区别。以下是两种写法的主要区别:

7.1.3 区别总结

  1. 字符类

    • 使用方括号[]定义。
    • 可以包含单个字符、字符范围或字符集的交集和补集。
    • 适用于需要匹配特定字符集合的情况。
  2. 预定义字符

    • 使用反斜杠\加特定字符定义。
    • 是常用字符类的简写形式。
    • 适用于匹配常见字符类型(如数字、字母、空白字符等)的情况。

7.2 使用PatternMatcher类与直接使用String类的matches方法的区别。

(1) 使用PatternMatcher

这种方法适用于需要多次复用同一个正则表达式的情况。通过编译正则表达式为Pattern对象,然后使用Matcher对象进行匹配,可以提高效率。

示例代码
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class PatternMatcherExample {public static void main(String[] args) {String regex1 = "[abc]";String input1 = "apple";System.out.println(matchesPattern(regex1, input1)); // true}private static boolean matchesPattern(String regex, String input) {Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(input);return matcher.find();}
}

(2)直接使用String类的matches方法

这种方法适用于简单的、一次性的正则表达式匹配。String类的matches方法会在内部编译正则表达式并进行匹配,适合于不需要复用正则表达式的情况。

示例代码
public class StringMatchesExample {public static void main(String[] args) {// 只能是 a b cSystem.out.println("----------1----------");System.out.println("a".matches("[abc]")); // trueSystem.out.println("k".matches("[abc]")); // false}
}

(3)区别总结

  1. 使用PatternMatcher

    • 适用于需要多次复用同一个正则表达式的情况。
    • 通过编译正则表达式为Pattern对象,然后使用Matcher对象进行匹配。
    • 提高了效率,特别是在需要多次匹配的情况下。
  2. 直接使用String类的matches方法

    • 适用于简单的、一次性的正则表达式匹配。
    • 每次调用matches方法时,都会编译正则表达式并进行匹配。
    • 适合于不需要复用正则表达式的情况。

(4)示例对比

使用PatternMatcher
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class PatternMatcherExample {public static void main(String[] args) {String regex1 = "[abc]";String input1 = "apple";System.out.println(matchesPattern(regex1, input1)); // true}private static boolean matchesPattern(String regex, String input) {Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(input);return matcher.find();}
}
直接使用String类的matches方法
public class StringMatchesExample {public static void main(String[] args) {// 只能是 a b cSystem.out.println("----------1----------");System.out.println("a".matches("[abc]")); // trueSystem.out.println("k".matches("[abc]")); // false}
}

7.3 数量词

  • X?:X,一次或0次
  • X*:X,零次或多次
  • X+:X,一次或多次
  • X{n}:X,正好n次
  • X{n,}:X,至少n次
  • X{n,m}:X,至少n但不超过m次

这些量词用于正则表达式中来指定字符或子模式的重复次数。

public class RegexExample {public static void main(String[] args) {// 示例1: X?System.out.println("aaab".matches("a?")); // falseSystem.out.println("a".matches("a?"));    // trueSystem.out.println("".matches("a?"));     // true// 示例2: X*System.out.println("aaab".matches("a*")); // falseSystem.out.println("aaa".matches("a*"));  // trueSystem.out.println("".matches("a*"));     // true// 示例3: X+System.out.println("aaab".matches("a+")); // falseSystem.out.println("aaa".matches("a+"));  // trueSystem.out.println("a".matches("a+"));    // true// 示例4: X{n}System.out.println("aaab".matches("a{2}")); // falseSystem.out.println("aa".matches("a{2}"));   // true// 示例5: X{n,}System.out.println("aaab".matches("a{2,}")); // falseSystem.out.println("aaa".matches("a{2,}"));  // true// 示例6: X{n,m}System.out.println("aaab".matches("a{1,2}")); // falseSystem.out.println("aa".matches("a{1,2}"));   // trueSystem.out.println("a".matches("a{1,2}"));    // true}
}

在这里插入图片描述

  • (?i):这是一个正则表达式的模式修饰符,用于忽略大小写。
public class RegexExample {public static void main(String[] args) {// 忽略大小写的书写方式// 在匹配的时候忽略abc的大小写String regex = "a(?i)bc";System.out.println("----------------------------");System.out.println("abc".matches(regex)); // trueSystem.out.println("ABC".matches(regex)); // trueSystem.out.println("aBC".matches(regex)); // true}
}

同样的忽略
(X|x)与 [Xx]

注意()的使用
()立大功

public class RegexExample {public static void main(String[] args) {// 忽略大小写的书写方式// 在匹配的时候忽略b的大小写String regex = "a((?i)b)c";System.out.println("----------------------------");System.out.println("abc".matches(regex)); // trueSystem.out.println("ABC".matches(regex)); // falseSystem.out.println("aBc".matches(regex)); // true}
}

7.4这是一个正则表达式符号的总结表。

7.4.1 各个符号

符号含义示例
[]里面的内容出现一次[0-9] [a-zA-Z0-9]
()分组a(bc)+
^取反[^abc]
&&交集,不能写单个的&[a-z&&m-p]
``写在方括号外面表示并集
.任意字符\n 回车符号不匹配
\转义字符\\d
\d0-9\\d+
\D非0-9\\D+
\s空白字符[ \t\n\x0B\f\r]
\S非空白字符[^\\s]
\w单词字符[a-zA-Z_0-9]
\W非单词字符[^\\w]
解释
  • []:匹配方括号内的任意一个字符。例如,[0-9]匹配任何一个数字。
  • ():用于分组。例如,a(bc)+匹配a后面跟一个或多个bc
  • ^:在方括号内表示取反。例如,[^abc]匹配任何不是abc的字符。
  • &&:表示交集。例如,[a-z&&m-p]匹配mp之间的字符。
  • |:表示并集。例如,x|X匹配xX
  • .:匹配任意字符(除了换行符)。
  • \:转义字符,用于转义特殊字符。
  • \d:匹配任何一个数字(0-9)。
  • \D:匹配任何一个非数字字符。
  • \s:匹配任何一个空白字符(包括空格、制表符、换行符等)。
  • \S:匹配任何一个非空白字符。
  • \w:匹配任何一个单词字符(包括字母、数字和下划线)。
  • \W:匹配任何一个非单词字符。

这些符号和示例可以帮助你更好地理解和使用正则表达式。

7.4.2 量词总结表。

符号含义示例
?0次或1次\\d?
*0次或多次\\d* (abc)*
+1次或多次\\d+ (abc)+
{}具体次数a{7} \\d{7,19}
(?i)忽略后面字符的大小写(?i)abc
a((?i)b)c只忽略b的大小写a((?i)b)c
解释
  • ?:匹配前面的字符0次或1次。例如,\\d?匹配0个或1个数字。
  • *:匹配前面的字符0次或多次。例如,\\d*匹配0个或多个数字,(abc)*匹配0个或多个abc
  • +:匹配前面的字符1次或多次。例如,\\d+匹配1个或多个数字,(abc)+匹配1个或多个abc
  • {}:匹配前面的字符具体的次数。例如,a{7}匹配7个a\\d{7,19}匹配7到19个数字。
  • (?i):忽略后面字符的大小写。例如,(?i)abc匹配abcABCaBc等。
  • a((?i)b)c:只忽略b的大小写。例如,a((?i)b)c匹配abcaBc,但不匹配ABC

八、爬虫

8.1 条件爬取

8.1.1 正向预查

要匹配的内容后面加上一个正向预查,指定后面的数据需要存在但不包含在匹配结果中。

String text = "前面的数据后面的数据";
String pattern = "前面的数据(?=后面的数据)";
Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(text);if (m.find()) {System.out.println(m.group());
}

在这里插入图片描述

在这个示例中,正则表达式(?=后面的数据)表示匹配"前面的数据"后面紧跟着"后面的数据",但只返回"前面的数据"部分。

8.1.2 其他的

String text = "前面的数据后面的数据";
String pattern = "前面的数据(?:后面的数据)";
Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(text);if (m.find()) {System.out.println(m.group());
}

在这里插入图片描述
非捕获分组不需要再用本组数据,仅仅把数据括起来,不占组号。
(?:)(?=)(?!)

符号含义
?:正则获取所有
?=正则获取前面
?! 正则 获取不是指定内容的前面的部分

8.2贪婪爬取

只写+或者·*·就是贪婪爬取
+?非贪婪爬取
*?非贪婪爬取
在这里插入图片描述

以下是使用贪婪匹配和非贪婪匹配的正则表达式示例:

  1. 使用贪婪匹配+
String text = "aaaaaab";
String pattern = "a+";
Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(text);while (m.find()) {System.out.println("贪婪匹配结果:" + m.group());
}
  1. 使用非贪婪匹配+?
String text = "aaaaaab";
String pattern = "a+?";
Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(text);while (m.find()) {System.out.println("非贪婪匹配结果:" + m.group());
}
  1. 使用贪婪匹配*
String text = "aaaaaab";
String pattern = "a*";
Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(text);while (m.find()) {System.out.println("贪婪匹配结果:" + m.group());
}
  1. 使用非贪婪匹配*?
String text = "aaaaaab";
String pattern = "a*?";
Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(text);while (m.find()) {System.out.println("非贪婪匹配结果:" + m.group());
}

这些示例演示了贪婪匹配和非贪婪匹配在正则表达式中的应用。

8.3 正则表达式中的方法

在Java中,正则表达式的常用方法包括matchesreplaceAllsplit。下面是它们的简要介绍:

  • matches:用于检查整个字符串是否匹配正则表达式。返回一个布尔值,表示是否完全匹配。
String text = "Hello, World!";
boolean isMatch = text.matches("Hello.*");
System.out.println(isMatch); // true
  • replaceAll:用于替换字符串中匹配正则表达式的部分。可以用指定的字符串替换匹配的部分。
String text = "apple, orange, banana";
String replacedText = text.replaceAll("\\b\\w+\\b", "fruit");
System.out.println(replacedText); // fruit, fruit, fruit
  • split:根据正则表达式将字符串拆分为子字符串数组。返回一个字符串数组,包含根据正则表达式拆分的子字符串。
String text = "apple,orange,banana";
String[] fruits = text.split("a");
for (String fruit : fruits) {System.out.println(fruit);
}
//pple,or
//nge,b
//n
//n

这些方法可以帮助你在Java中使用正则表达式进行匹配、替换和拆分字符串。

8.4 分组

在Java中,可以使用圆括号()来创建一个分组。

在正则表达式中,分组可以对匹配的部分进行逻辑分组,以便后续引用或操作。
组号是连续的,从1开始不间断的。以左括号为基准。
非捕获分组不需要再用本组数据,仅仅把数据括起来,不占组号。

(?:)(?=)(?!)
在这里插入图片描述

public class SimplifyString {public static void main(String[] args) {// 定义原始字符串String s = "aabbbbbbcccc";// 使用正则表达式替换重复的字符// (.) 捕获组匹配任意字符// \\1+ 量词匹配捕获组1的一次或多次出现// $1 引用捕获组1的内容(即匹配的单个字符)进行替换String simplified = s.replaceAll("(.)\\1+", "$1");// 输出简化后的字符串System.out.println(simplified);  // 输出: abc}
}

8.4.1 首尾相同单字符 abc123cba

\\组号意味着吧X组的东西在拿来用一次

String regex1="(.).+\\1";

在这里插入图片描述

8.4.2 首尾相同多字符abc123abc

String regex1="(.+).+\\1";

在这里插入图片描述

8.4.3 开始的样式和结束的样式一样aaa12aaa

(.)是把字母看做一组
\\2是把首字母重复
*是把\\2, ——— 0次或者多次

String regex1="((.)\\2*).+\\1";

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【教学类-67-02】20240716毛毛虫ABB排序
  • 探索十大最佳产品设计软件:软件排行榜揭晓
  • Lora模型训练的参数-学习笔记
  • 【学习笔记】无人机(UAV)在3GPP系统中的增强支持(九)-无人机服务区分离
  • 防火墙-NAT策略和智能选路
  • 新手教学系列——简单的服务配置项集中管理
  • python取色器
  • Pycharm 导入 conda 环境
  • 开发指南047-前端模块版本
  • NineData全面支持PostgreSQL可视化表结构设计
  • 无人机监测的必要性及方法
  • ES证书过期替换方案
  • Python中的数据结构:五彩斑斓的糖果盒
  • 【深度学习入门篇 ⑦】PyTorch池化层
  • python自动化之用flask校验接口token(把token作为参数)
  • 「面试题」如何实现一个圣杯布局?
  • Java 11 发布计划来了,已确定 3个 新特性!!
  • k8s如何管理Pod
  • Making An Indicator With Pure CSS
  • nginx 配置多 域名 + 多 https
  • nodejs:开发并发布一个nodejs包
  • nodejs调试方法
  • node入门
  • Vue.js 移动端适配之 vw 解决方案
  • vue从入门到进阶:计算属性computed与侦听器watch(三)
  • 分布式任务队列Celery
  • 分享几个不错的工具
  • 机器学习 vs. 深度学习
  • 基于axios的vue插件,让http请求更简单
  • 利用阿里云 OSS 搭建私有 Docker 仓库
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 问:在指定的JSON数据中(最外层是数组)根据指定条件拿到匹配到的结果
  • CMake 入门1/5:基于阿里云 ECS搭建体验环境
  • Play Store发现SimBad恶意软件,1.5亿Android用户成受害者 ...
  • 阿里云服务器购买完整流程
  • 数据库巡检项
  • ​力扣解法汇总946-验证栈序列
  • "无招胜有招"nbsp;史上最全的互…
  • (23)Linux的软硬连接
  • (C11) 泛型表达式
  • (Matalb回归预测)PSO-BP粒子群算法优化BP神经网络的多维回归预测
  • (二)什么是Vite——Vite 和 Webpack 区别(冷启动)
  • (附源码)python旅游推荐系统 毕业设计 250623
  • (回溯) LeetCode 131. 分割回文串
  • (学习日记)2024.02.29:UCOSIII第二节
  • (学习日记)2024.04.04:UCOSIII第三十二节:计数信号量实验
  • .NET Core Web APi类库如何内嵌运行?
  • .NET 的静态构造函数是否线程安全?答案是肯定的!
  • .net 调用海康SDK以及常见的坑解释
  • .NET 设计模式—适配器模式(Adapter Pattern)
  • .NetCore实践篇:分布式监控Zipkin持久化之殇
  • .NET下的多线程编程—1-线程机制概述
  • /run/containerd/containerd.sock connect: connection refused
  • []Telit UC864E 拨号上网
  • [16/N]论得趣