当前位置: 首页 > news >正文

使用awk和正则表达式过滤文本或字符串 - 详细指南和示例

当我们在 Linux 中运行某些命令来读取或编辑字符串或文件中的文本时,我们经常尝试将输出过滤到感兴趣的特定部分。这就是使用正则表达式派上用场的地方。

什么是正则表达式?

正则表达式可以定义为表示多个字符序列的字符串。关于正则表达式最重要的事情之一是它允许您过滤命令或文件的输出、编辑文本或配置文件的一部分等等。

正则表达式的特点

正则表达式由以下部分组成:

  • 普通字符,例如空格、下划线(_)、A-Z、a-z、0-9。
  • 扩展为普通字符的元字符包括:
    • (.) 它匹配除换行符之外的任何单个字符。
    • (*) 它匹配零个或多个其前面的直接字符。
    • [character(s)]匹配character(s)中指定的任意一个字符,也可以使用连字符(-)表示一系列字符,如[a-f]、[1-5]等。
    • ^ 它匹配文件中行的开头。
    • $ 匹配文件中的行尾。
    • \ 它是一个转义字符。

为了过滤文本,必须使用 awk 等文本过滤工具。您可以将 awk 视为一种编程语言。但对于本指南[1]使用 awk 的范围,我们将其作为一个简单的命令行过滤工具进行介绍。

awk 的一般语法是:

awk 'script' filename

其中“script”是 awk 可以理解在文件 filename 上执行的一组命令。

它的工作原理是读取文件中的给定行,制作该行的副本,然后执行该行上的脚本。文件中的所有行都会重复此操作。

“script”的形式为“/pattern/action”,其中pattern是正则表达式,而action是 awk 在行中找到给定pattern时将执行的操作。

如何在Linux中使用awk过滤工具

在下面的示例中,我们将重点关注 awk 的元字符。

  • 由于没有给出模式,下面的示例打印文件 /etc/hosts 中的所有行。
awk '//{print}'/etc/hosts
alt
  • 使用 Awk 模式:在文件中匹配带有“localhost”的行

在下面的示例中,已给出模式 localhost,因此 awk 将匹配 /etc/hosts 文件中具有 localhost 的行。

awk '/localhost/{print}' /etc/hosts 
alt
  • 在模式中使用带有 (.) 通配符的 Awk

(.) 将匹配下面示例中包含 loc、localhost、localnet 的字符串。

awk '/l.c/{print}' /etc/hosts
alt
  • 在模式中使用带有 (*) 字符的 Awk

它将匹配包含 localhost、localnet、lines、capable 的字符串,如下例所示:

awk '/l*c/{print}' /etc/localhost
alt

您还将意识到 (*) 试图为您提供它可以检测到的最长匹配项。

让我们看一个案例来演示这一点,采用正则表达式 t*t,它表示匹配以下行中以字母 t 开头并以 t 结尾的字符串:

this is tecmint, where you get the best good tutorials, how to's, guides, tecmint. 

当您使用模式 /t*t/ 时,您将得到以下可能性:

this is t
this is tecmint
this is tecmint, where you get t
this is tecmint, where you get the best good t
this is tecmint, where you get the best good tutorials, how t
this is tecmint, where you get the best good tutorials, how tos, guides, t
this is tecmint, where you get the best good tutorials, how tos, guides, tecmint

/tt/ 通配符中的 () 允许 awk 选择最后一个选项:

this is tecmint, where you get the best good tutorials, how to's, guides, tecmint
  • 使用带有 set [ 字符 ] 的 awk

以集合[al1]为例,这里awk将匹配文件/etc/hosts中一行中包含字符a或l或1的所有字符串。

awk '/[al1]/{print}' /etc/hosts
alt

下一个示例匹配以 K 或 k 开头后跟 T 的字符串:

# awk '/[Kk]T/{print}' /etc/hosts 
alt
  • 指定范围内的字符

用 awk 理解字符:

  • [0-9]表示单个数字
  • [a-z] 表示匹配单个小写字母
  • [A-Z] 表示匹配单个大写字母
  • [a-zA-Z] 表示匹配单个字母
  • [a-zA-Z 0-9] 表示匹配单个字母或数字
awk '/[0-9]/{print}' /etc/hosts 
alt

在上面的示例中,文件 /etc/hosts 中的所有行都至少包含一个数字 [0-9]。

  • 将 Awk 与 ($) 元字符结合使用

它匹配以提供的模式结尾的所有行:

awk '/ab$/{print}' /etc/hosts
awk '/ost$/{print}' /etc/hosts
awk '/rs$/{print}' /etc/hosts
alt
  • 将 Awk 与 () 转义字符一起使用

它允许您将其后面的字符视为文字,也就是说按原样考虑它。

在下面的示例中,第一个命令打印出文件中的所有行,第二个命令不打印任何内容,因为我想匹配包含 $25.00 的行,但没有使用转义字符。

第三个命令是正确的,因为转义字符已用于按原样读取 $。

awk '//{print}' deals.txt
awk '/$25.00/{print}' deals.txt
awk '/\$25.00/{print}' deals.txt
alt
Reference
[1]

Source: https://www.tecmint.com/use-linux-awk-command-to-filter-text-string-in-files/

本文由 mdnice 多平台发布

相关文章:

  • 深入理解锁的升级与降级
  • 错误与异常之为何要异常
  • Dockerfile的使用,怎样制作镜像
  • linux应用程序需要编写的脚本
  • HTML—基本介绍
  • 【吊打面试官系列】Java虚拟机JVM篇 - 关于类加载器的JVM面试题
  • React基础
  • 银河麒麟服务器操作系统V10【vnc配置多用户登录】
  • 实时大数据流处理技术:Spark Streaming与Flink的深度对比
  • 产品推荐 - 基于星嵌 OMAPL138+国产FPGA的DSP+ARM+FPGA三核开发板
  • Matlab|2机5节点牛拉法(含报告)
  • Spring Cloud微服务在Windows本地开发时禁用Nacos注册中心注册
  • linux centos系统搭建samba文件服务器 NetBIOS解析 (超详细)
  • 【控制台警告】npm WARN EBADENGINE Unsupported engine
  • 【elasticsearch】ES的JAVA工具类完整版(待完成...)
  • 002-读书笔记-JavaScript高级程序设计 在HTML中使用JavaScript
  • dva中组件的懒加载
  • IDEA 插件开发入门教程
  • LeetCode刷题——29. Divide Two Integers(Part 1靠自己)
  • linux安装openssl、swoole等扩展的具体步骤
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • ubuntu 下nginx安装 并支持https协议
  • vue总结
  • 闭包--闭包作用之保存(一)
  • 不用申请服务号就可以开发微信支付/支付宝/QQ钱包支付!附:直接可用的代码+demo...
  • 程序员最讨厌的9句话,你可有补充?
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 判断客户端类型,Android,iOS,PC
  • 设计模式(12)迭代器模式(讲解+应用)
  • 通过git安装npm私有模块
  • 详解移动APP与web APP的区别
  • 优化 Vue 项目编译文件大小
  • NLPIR智能语义技术让大数据挖掘更简单
  • 我们雇佣了一只大猴子...
  • 组复制官方翻译九、Group Replication Technical Details
  • ​【已解决】npm install​卡主不动的情况
  • ​第20课 在Android Native开发中加入新的C++类
  • # 日期待t_最值得等的SUV奥迪Q9:空间比MPV还大,或搭4.0T,香
  • #DBA杂记1
  • (1)(1.11) SiK Radio v2(一)
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (12)目标检测_SSD基于pytorch搭建代码
  • (4)Elastix图像配准:3D图像
  • (Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测
  • (附源码)springboot 校园学生兼职系统 毕业设计 742122
  • (三)docker:Dockerfile构建容器运行jar包
  • (终章)[图像识别]13.OpenCV案例 自定义训练集分类器物体检测
  • . NET自动找可写目录
  • .Net Core与存储过程(一)
  • .NET Framework 4.6.2改进了WPF和安全性
  • .NET 常见的偏门问题
  • .NET/C# 将一个命令行参数字符串转换为命令行参数数组 args
  • .NET面试题解析(11)-SQL语言基础及数据库基本原理
  • .NET设计模式(7):创建型模式专题总结(Creational Pattern)
  • .w文件怎么转成html文件,使用pandoc进行Word与Markdown文件转化