当前位置：首页 > news >正文

shell-awk文本处理工具

news 来源：原创 2024/9/20 6:29:09

1、awk概述

AWK 是一种处理文本文件的语言，是一个强大的文本分析工具。

它是专门为文本处理设计的编程语言，也是行处理软件，通常用于扫描、过滤、统计汇总工作

数据可以来自标准输入也可以是管道或文件

在 linux 上常用的是 gawk,awk 是 gawk 的链接文件

[root@localhost~]# which awk
/usr/bin/awk

[root@localhost~]# ll /usr/bin/awk
lrwxrwxrwx. 1 root root 4 6月 11 07:19 /usr/bin/awk -> gawk

2、awk工作原理

当读到第一行时，匹配条件，然后执行指定动作，再接着读取第二行数据处理，不会默认输出

如果没有定义匹配条件默认是匹配所有数据行， awk 隐含循环，条件匹配多少次动作就会执行多少次逐行读取文本，默认以空格或tab 键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。

sed 命令常用于一整行的处理，而 awk 比较、倾向于将一行分成多个 "" 字段 " 然后再进行处理。 awk

信息的读入也是逐行读取的，执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中, 可以使用逻辑操作符 " &&" 表示 " 与 " 、 "|| 表示 " 或 " 、 "!" 表示非 "; 还可以进行简单的数学运算，如 +、- 、* 、 / 、 % 、 ^ 分别表示加、减、乘、除、取余和乘方。

正则表达式 : /root/ 匹配含有 root 的行 /*.root/

关系表达式： < > && || + *

匹配表达式： ~ ！ ~ 动作：

变量命令内置函数流控制语句它的语法结构如下：

awk [options] 'BEGIN{ print "start" } ‘pattern{ commands }’ END{ print "end" }'

BEGIN END 是 AWK 的关键字部，因此必须大写；这两个部分开始块和结束块是可选的

3、awk执行流程

BEGIN 语句设置计数和打印头部信息，在任何动作之前进行

END 语句输出统计结果，在完成动作之后执行

AWK 执行流程：读（ Read ）、执行（ Execute ）与重复（ Repeat ）。

1 、读（ Read ）：从文件、管道或标准输入中读入一行到内存中

2 、执行（ Execute ）：对每一行数据，根据 AWK 命令按顺序执行。默认情况是处理每一行数据，也可以指定模式

3 、重复（ Repeat ）：一直重复上述两个过程直到文件结束

4、命令格式

awk 选项 ' 模式或条件 { 操作 }' 文件 1 文件 2 ...

awk -f 脚本文件文件 1 文件 2 ..

格式： awk 关键字选项命令部分 '{xxxx}' 文件名

**AWK 支持两种不同类型的变量：内建变量 ( 可直接使用 ) ，自定义变量 awk 内置变量（预定义变量）

FS ：指定每行文本的字段分隔符，默认为空格或制表位。

NF ：当前处理的行的字段个数。在执行过程中对应于当前的字段数， NF ：列的个数

NR ：当前处理的行的行号（序数）。在执行过程中对应于当前的行号

$0 ：当前处理的行的整行内容。

$n ：当前处理行的第 n 个字段（第 n 列）。比如 : $1 表示第一个字段， $2 表示第二个字段

FILENAME ：被处理的文件名 ( 当前输入文件的名 ) 。

FNR 各文件分别计数的行号

OFS 输出字段分隔符（默认值是一个空格）

ORS 输出记录分隔符（默认值是一个换行符）

RS: 行分隔符。 awk 从文件上读取资料时 , 将根据 Rs 的定义把资料切割成许多条记录 , 而 awk 一次仅读入一条记录, 以进行处理。预设值是 " \n'

简说：数据记录分隔，默认为 \n ，即每行为一条记录

5、内建变量

awk 包含几个特殊的内建变量（可直接用）如下所示：

FS ：指定每行文本的字段分隔符，默认为空格或制表位（\t）。

NF ：当前处理的行的字段个数（列）。

NR ：当前处理的行的行号（序数）。

$0 ：当前处理的行的整行内容。

$n ：当前处理行的第 n 个字段（第 n 列）。

FILENAME ：被处理的文件名。

RS: 行分隔符。 awk 从文件上读取资料时 , 将根据 Rs 的定义把资料切割成许多条记录 , 而 awk 一次仅读入一

条记录 , 以进行处理。预设值是 " \n'

简说：数据记录分隔，默认为 \n ，即每行为一条记录

[root@localhost ~] #awk 'patterm{action}'

[root@localhost ~] #awk ' ' # 什么都不写空没有效果

[root@localhost ~] #awk '{print}' #把输入内容再打印一遍

[root@localhost ~] #awk '{print "hello"}' 输入任何内容都打印hello

# 字符串需要添加双引号，单引号已被使用

[root@localhost ~] #awk '{print "hello"}' < /etc/passwd

把/etc/passwd内容输出到awk，所有/etc/passwd内容显示成hello

[root@localhost ~] # cat /etc/passwd | head -10 > zz #把/etc/passwd前10行输入到zz

[root@localhost ~] # awk '{print}' zz #打印文件zz

[root@localhost ~] # awk '{print $1}' zz #以默认空格为分隔，打印zz第一列

[root@localhost ~] # awk -F: '{print $1}' zz #以：为分隔，打印zz第一列

root:x:0:0:root:/root:/bin/bash //awk 默认把这一行当做一列，因为没有被空格分隔， awk 默

认以空格或 tab 键分隔

[root@localhost ~] # awk -F: '{print $5}' zz # 以：为分隔符，打印第五列

[root@localhost ~] # awk -Fx '{print $1}' /etc/passwd #以 x 为分隔符，打印第一列

[root@localhost ~] # awk '{print $1 $2}' zz

[root@localhost ~] # awk '{print $1" "$2}' zz #双引号中间加一个空格，空格作用

[root@localhost ~] # awk '{print $1,$2}' zz # 逗号有空格效果

[root@localhost ~] # awk -F: '{print $1"\t"$2}' /etc/passwd #用制表符作为分隔符

[root@localhost ~] # awk -F[:/] '{print $9}' zz

// 定义多个分隔符，只要看到其中一个都算作分隔符

6、内置变量

awk 常用内置变量： $1 、 $2 、 NF 、 NR 、 $0

$1 ：代表第一列

$2 ：代表第二列以此类推

$0 ：代表整行

NF：一行的列数

NR：行数

[root@localhost ~] # awk -F: '/root/{print $0}' zz // 打印包含 root 的整行内容

[root@localhost ~] # awk -F: '/root/{print $1}' zz // 打印包含 root 的行的第一列

[root@localhost ~] # awk -F: '/root/{print $1,$6}' zz // 打印包含 root 行的第1列和第6列

[root@localhost ~] # awk '/root/' /etc/passwd //输出包含root的行

[root@localhost ~] # awk -F[:/] '{print NF}' zz // 打印每一行的列数

[root@localhost ~] # awk '{print NR}' zz

[root@localhost ~] # awk -F[:/] '{print NR}' zz //显示行号

[root@localhost ~] # awk -F: '{print NR}' zz

[root@localhost ~] # awk -F: '{print NR,$0}' pass.txt //显示行号，并打印每一行

[root@localhost ~] # awk 'NR==2' zz //打印第二行 (不加 print 也一样，默认就是打印)

[root@localhost ~] # awk 'NR==2{print}' /etc/passwd

[root@localhost ~] # awk 'NR==2{print $1}' /etc/passwd // 打印第二行的第一列

[root@localhost ~] # awk -F: '{print $NF}' /etc/passwd // 打印最后一列

[root@localhost ~] # awk 'END{print NR}' zz // 打印最后一行行号，相当于总行数

[root@localhost ~] # awk 'END{print $0}' zz // 打印文件最后一行

[root@localhost ~] # awk -F: '{print " 当前行有 "NF" 列 "}' zz

[root@localhost ~] # awk -F: '{print " 第 "NR" 行有 "NF" 列 "}' zz // 第几行有几列

扩展生产案列：网卡的 ip 、流量

[root@localhost ~] # ifconfig ens33 | awk '/netmask/{print " 本机的 ip 地址是 "$4}'

打印 ifconfig ens33 包含 netmask 行的第四列

[root@localhost ~] # ifconfig ens33 | awk '/RX p/{print $5" 字节 "}'

打印 ifconfig ens33 包含 RX p 行的第五列

# 根分区的可用量

[root@localhost ~] # df -h | awk 'NR==2{print $4}'

打印 df -h 第二行第四列

7、BEGIN END 运算

逐行执行开始之前执行什么任务，结束之后再执行什么任务，用 BEGIN 、 END

BEGIN 一般用来做初始化操作，仅在读取数据记录之前执行一次

END 一般用来做汇总操作，仅在读取完数据记录之后执行一次

awk 的运算：

[root@localhost ~] # awk 'BEGIN{x=10;print x}'

// 如果不用引号 awk 就当作一个变量来输出了，所以不需要加$ 了

10

[root@localhost ~] # awk 'BEGIN{x=10;print x+1}'

//BEGIN 在处理文件之前，所以后面不跟文件名也不影响

11

[root@localhost ~] # awk 'BEGIN{x=10;x++;print x}'

11

[root@localhost ~] # awk 'BEGIN{print x+1}'

// 不指定初始值，初始值就为 0 ，如果是字符串，则默认为空

1

[root@localhost ~] # awk 'BEGIN{print 2.5+3.5}' // 小数也可以运算

6

[root@localhost ~] # awk 'BEGIN{print 2-1}'

1

[root@localhost ~] # awk 'BEGIN{print 3*4}'

12

[root@localhost ~] # awk 'BEGIN{print 3**2}'

9

[root@localhost ~] # awk 'BEGIN{print 2^3}' //^ 和 ** 都是幂运算

8

[root@localhost ~] # awk 'BEGIN{print 1/2}'

0 .5

[root@localhost ~] # awk -F: '/root/' /etc/passwd //包含 root 的行

// 如果后面有具体打印多少列就没法省略print 了

8、模糊匹配（~、！~）

模糊匹配，用 ~ 表示包含， !~ 表示不包含

[root@localhost ~] # awk -F: '$1~/root/' zz #第一列包含 root 的行

[root@localhost ~] # awk -F: '$1~/ro/' zz #第一列包含 ro 的行

// 模糊匹配，只要有 ro 就匹配上

[root@localhost ~] # awk -F: '$7!~/nologin$/{print $1,$7}' /etc/passwd

第七列不包含以 nologin 结尾的行，并打印第一列第七列

9、数值与字符串的比较

比较符号： == != <= >= < >

[root@localhost ~] # awk 'NR==5{print}' zz

[root@localhost ~] # awk 'NR==5' zz #打印第5行

[root@localhost ~] # awk 'NR<5' /etc/passwd #打印行号小于5的行

[root@localhost ~] # awk -F: '$3==0' /etc/passwd #打印第3列=0的行

[root@localhost ~] # awk -F: '$1=="root"' /etc/passwd #打印第1列=root的行

[root@localhost ~] # awk -F: '$3>=1000' /etc/passwd #打印带3列uid >= 1000的行

uid >=1000 为普通用户

10、逻辑运算（&& 、||）

&& 和 || 是逻辑运算符，用于组合多个条件并控制程序流程。

&&（而且） 要求所有条件都为真时才为真，否则为假。

|| （或） 只要有一个条件为真就为真，全为假时才为假。

[root@localhost ~] # awk -F: '$3<10 || $3>=1000' /etc/passwd 第3列小于10或大于等于1000

[root@localhost ~] # awk -F: '$3>10 && $3<1000' /etc/passwd 第3列大于10而且小于1000