当前位置: 首页 > news >正文

linux awk详解

awk:
  awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,
  awk在其对数据分析并生成报告时,显得尤为强大。
  简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
  awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。
  awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。
  实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。
  它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

 

awk工作流程:
  读入有"\n"换行符分割的一条记录,然后把记录按照指定的域分隔符划分域,填充域
  $0表示所有的域,$1表示第一个域,以此类推
  默认域分隔符是空白键或者tab键

  -F:指定域分隔符
  

  cat /etc/passwd | awk -F":" '{print $1}'


  中间可以用\t来填充

  cat /etc/passwd | awk -F":" '{print $1"\t"$7}'

当有BEGIN,END时AWK工作流程:
  先执行begin,然后读取文件,读入有\n换行符分割的第一条记录,然后安装
  指定的域分隔符划分域,填充域,$0表示所有的域,$1表示第一个域,以此类推
  随后开始执行模式所对应的动作action
  最后都执行完,最后执行end操作

  cat /etc/passwd | awk -F':' 'BEGIN {print "username bash"} {print $1","$7} END {print "run over"}'

 

  输出内容需要用""包含,其中BEGIN,END都是关键字,必须大写


awk内置变量:
  awk中同样定义了很多内置变量,我们可以直接像使用普通变量一样使用他们,由于awk的版本众多,有些内置变量并不是得到所有awk版本的支持。

  说明:[A][N][P][G]表示支持该变量的工具,[A]=awk、[N]=nawk、[P]=POSIXawk、[G]=gawk

  $n 当前记录的第n个字段,比如n为1表示第一个字段,n为2表示第二个字段。 
  $0 这个变量包含执行过程中当前行的文本内容。
  [N] ARGC 命令行参数的数目。
  [G] ARGIND 命令行中当前文件的位置(从0开始算)。
  [N] ARGV 包含命令行参数的数组。
  [G] CONVFMT 数字转换格式(默认值为%.6g)。
  [P] ENVIRON 环境变量关联数组。
  [N] ERRNO 最后一个系统错误的描述。
  [G] FIELDWIDTHS 字段宽度列表(用空格键分隔)。
  [A] FILENAME 当前输入文件的名。
  [P] FNR 同NR,但相对于当前文件。
  [A] FS 字段分隔符(默认是任何空格)。
  [G] IGNORECASE 如果为真,则进行忽略大小写的匹配。
  [A] NF 表示字段数,在执行过程中对应于当前的字段数。
  [A] NR 表示记录数,在执行过程中对应于当前的行号。
  [A] OFMT 数字的输出格式(默认值是%.6g)。
  [A] OFS 输出字段分隔符(默认值是一个空格)。
  [A] ORS 输出记录分隔符(默认值是一个换行符)。
  [A] RS 记录分隔符(默认是一个换行符)。
  [N] RSTART 由match函数所匹配的字符串的第一个位置。
  [N] RLENGTH 由match函数所匹配的字符串的长度。
  [N] SUBSEP 数组下标分隔符(默认值是34)。

 




awk编程:
  变量和赋值
    print只是语句

    awk 'BEGIN {count=0} {count++;print $0} END {print "user count is ",count}' /etc/passwd

    ls -l /etc/ | grep ^- | awk 'BEGIN{size=0} {size=size+$5} END{print size}'


  条件语句:

if(expression){
statement;
statement;
......
}


if(expression){
statement;
statement;
......
} else {
statement;
}

if(expression){
statement;
statement;
......
} else if (expression) {
statement;
} else {
statement;
}

 

统计目录下文件大小,过滤掉4096(一般都是文件夹)

ls -l | awk 'BEGIN {size=0;} {if($5!=4096){size=size+$5}} END {print "size is:",size}'


循环语句:
  while循环

awk 'BEGIN {count=0;while(count<5){print count;count++;}}'


  do...while循环

awk 'BEGIN {count=0;do{print count;count++;}while(count<5)}

  for循环

awk 'BEGIN {for(count=0; count<5; count++){print count}}'


  使用数组求和,for...in循环

awk '{sum[$1]+=$2}END{for(k in sum){print k" "sum[k]}}'


awk内置函数:
  算术:

    atan2(y,x) 返回 y/x 的反正切。 
    cos(x) 返回 x 的余弦;x 是弧度。 
    sin(x) 返回 x 的正弦;x 是弧度。 
    exp(x) 返回 x 幂函数。 
    log(x) 返回 x 的自然对数。 
    sqrt(x) 返回 x 平方根。 
    int(x) 返回 x 的截断至整数的值。 
    rand() 返回任意数字 n,其中 0 <= n < 1。 
    srand([expr]) 将 rand 函数的种子值设置为 Expr 参数的值,或如果省略 Expr 参数则使用某天的时间。返回先前的种子值。

 

  字符串:

    gsub(reg,str1,str2) 使用str1替换所有str2中符合正则表达式reg的子串
    sub(reg,str1,str2) 含义与gsub相同,只不过gsub是替换所有匹配,sub只替换第一个匹配
    index(str,substr) 返回substr在str中第一次出现的索引,注意索引从1开始计算,如果没有则返回0
    length(str) 返回str字符串的长度,length函数还可以返回数组元素的个数
    blength(str) 返回字符串的字节数
    match(str,reg) 与index函数一样,只不过reg使用正则表达式,例如match("hello",/lo/)
    split(str,array,reg)将str分隔成数组保存到array中,分隔使用正则reg,或者字符串都可以,返回数组长度
    tolower(str) 转换为小写
    toupper(str) 转换为大写
    substr(str,start,length) 截取字符串,从start索引开始的length个字符,如不指定length则截取到末尾,索引从1开始

 

  其他:

    system(command) 执行系统命令,返回退出码
    mktime( YYYY MM dd HH MM ss[ DST]) 生成时间格式
    strftime(format,timestamp) 格式化时间输出,将时间戳转换为时间字符串
    systime() 得到时间戳,返回从1970年1月1日开始到当前时间(不计闰年)的整秒数

 


 

参考:https://www.cnblogs.com/wangqiguo/p/5863266.html

转载于:https://www.cnblogs.com/djoker/p/9408716.html

相关文章:

  • HDU 2680 Choose the best route(多起点单终点最短路问题)题解
  • 【iOS-Cocos2d游戏开发】使用Zwoptex生成plist文件
  • 初始Windows系统
  • 西方酒馆(一)
  • Nodejs----基本数据类型
  • Objective-C属性介绍
  • PAT 1061 判断题(15)(代码)
  • 【iOS-Cocos2d游戏开发】使用cocosBuiler制作cocos2d场景
  • 面试题——存储引擎
  • HTML(XHTML)基础知识(二)——【body】
  • 《性能测试诊断分析与优化》推荐序(2)
  • Go实现发送解析GET与POST请求
  • 转新浪微博 Facebook新园区黑客之路
  • N天学习一个Linux命令之dmesg
  • 数据越权访问,谁之错?
  • [译]前端离线指南(上)
  • CentOS从零开始部署Nodejs项目
  • Docker 1.12实践:Docker Service、Stack与分布式应用捆绑包
  • dva中组件的懒加载
  • iBatis和MyBatis在使用ResultMap对应关系时的区别
  • Nodejs和JavaWeb协助开发
  • Python中eval与exec的使用及区别
  • Spring框架之我见(三)——IOC、AOP
  • 实战:基于Spring Boot快速开发RESTful风格API接口
  • 小程序测试方案初探
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • #git 撤消对文件的更改
  • #Ubuntu(修改root信息)
  • #绘制圆心_R语言——绘制一个诚意满满的圆 祝你2021圆圆满满
  • (2)nginx 安装、启停
  • (6)STL算法之转换
  • (定时器/计数器)中断系统(详解与使用)
  • (接口封装)
  • (免费领源码)Java#ssm#MySQL 创意商城03663-计算机毕业设计项目选题推荐
  • (数据结构)顺序表的定义
  • (学习日记)2024.04.04:UCOSIII第三十二节:计数信号量实验
  • (一)VirtualBox安装增强功能
  • (转)树状数组
  • ./indexer: error while loading shared libraries: libmysqlclient.so.18: cannot open shared object fil
  • .h头文件 .lib动态链接库文件 .dll 动态链接库
  • .mat 文件的加载与创建 矩阵变图像? ∈ Matlab 使用笔记
  • .NET CF命令行调试器MDbg入门(四) Attaching to Processes
  • .NET Remoting Basic(10)-创建不同宿主的客户端与服务器端
  • .net websocket 获取http登录的用户_如何解密浏览器的登录密码?获取浏览器内用户信息?...
  • .NET 编写一个可以异步等待循环中任何一个部分的 Awaiter
  • .NET 材料检测系统崩溃分析
  • .NET 自定义中间件 判断是否存在 AllowAnonymousAttribute 特性 来判断是否需要身份验证
  • .net解析传过来的xml_DOM4J解析XML文件
  • .NET精简框架的“无法找到资源程序集”异常释疑
  • .NET轻量级ORM组件Dapper葵花宝典
  • ::什么意思
  • :not(:first-child)和:not(:last-child)的用法
  • @TableLogic注解说明,以及对增删改查的影响
  • @WebService和@WebMethod注解的用法
  • [2019.3.20]BZOJ4573 [Zjoi2016]大森林