当前位置: 首页 > news >正文

文本处理工具

时间:2017.11.21

作者:李强

参考:man,info,magedu讲义

声明:以下英文纯属个人翻译,英文B级,欢迎纠正,以下内容纯属个人理解,并没有对错,只是参考,盗版不纠,才能有限,希望不误人子弟为好。

1、 Output of entire files(整个文件内容的输出)

These commands read and write entire files, possibly transforming them in some way.

  • Menu:

  • cat :Concatenate and write files.
  • tac :Concatenate and write files in reverse.
  • nl :Number lines and write files.
  • od :Write files in octal or other formats.
  • base64 :Transform data into printable data.

cat:

NAME
       cat - concatenate files and print on the standard output

SYNOPSIS
       cat [OPTION]... [FILE]...

-n:显示行号
-b:不显示空行行号
-s:压缩连续的空行为一行
-A:显示所有控制符
-E:显示行结束符,可以用来检查空格tab等肉眼无法判断的字符。

tac:

NAME
       tac - concatenate and print files in reverse

SYNOPSIS
       tac [OPTION]... [FILE]...

nl:

NAME
       nl - number lines of files

SYNOPSIS
       nl [OPTION]... [FILE]...

rev:

NAME
     rev - reverse lines of a file or files

SYNOPSIS
     rev [file ...]

2、Summarizing files(整理文件)

  • wc :Print newline, word, and byte counts
  • sum :Print checksum and block counts
  • cksum :Print CRC checksum and byte counts
  • md5sum :Print or check MD5 digests
  • sha1sum :Print or check SHA-1 digests
  • sha2 :Print or check SHA-2 digests

wc:

NAME
       wc - print newline, word, and byte counts for each file

SYNOPSIS
       wc [OPTION]... [FILE]...
       wc [OPTION]... --files0-from=F

3、Operating on sorted files(对文件内容进行排序)

  • sort :Sort text files.
  • shuf :Shuffle text files.
  • uniq : Uniquify files.
  • comm :Compare two sorted files line by line.
  • ptx :Produce a permuted index of file contents.
  • tsort :Topological sort.

    sort:

NAME
       sort - sort lines of text files

SYNOPSIS
       sort [OPTION]... [FILE]...
       sort [OPTION]... --files0-from=F

-b --ignore-leading-blanks
-d --dictionary-order字典书序,仅考虑空格和字母数字
-f --ignore-case 忽略字母大小写
-g --general-numeric-sort按一般数值排序1-10 11 12
-i --ignore-noprinting 仅考虑打印字符,忽略非打印字符
-M --month-sort 以月份来排序,在月份排序的时候使用
-h --human-reading-numeric 以人类可读的数字,例如2k 1g ,在单位排序的时候可以使用
-n --numeric-sort
-R --random-sort
-r --reserve 反转排序

uniq:

NAME
       uniq - report or omit repeated lines

SYNOPSIS
       uniq [OPTION]... [INPUT [OUTPUT]]

4、Output of parts of files(文件部分的输出)

  • head : Output the first part of files
  • tail : Output the last part of files
  • split :Split a file into fixed-size pieces
  • csplit :Split a file into context-determined pieces

head:

    NAME
       head - output the first part of files

SYNOPSIS
       head [OPTION]... [FILE]...

-c:--bytes=[-]K 指定显示文件开头多少字节不是字符character,如果K前加dash(破折号),表示打印所有字符除了最后几个字符

-n:--lines=[-]K 指定显示文件开头多少行,如果K前加dash(破折号),表示打印所有除了最后几行

-#:指定从哪行开始显示就是-n的缩写,不写n了,建议最好写,容易混,比如当#为-1时,就必须用-n -1才行。

-q:--quiet,--silent ,当显示多个文件时,开头不显示文件名

-v: (默认)当显示多个文件时,开头显示文件名

当-c时,K可以加许多后缀:b 512, kB 1000, K 1024, MB 10001000, M 10241024, GB 100010001000, G 102410241024, T, P, E, Z, Y.等

tail:

 NAME
       tail - output the last part of files

SYNOPSIS
       tail [OPTION]... [FILE]...

-c:--bytes=[-]K 指定显示文件开头多少字节不是字符character,如果K前加dash(破折号),表示打印所有字符除了最后几个字符

-n:--lines=[-]K 指定显示文件开头多少行,如果K前加dash(破折号),表示打印所有除了最后几行

-#:指定从哪行开始显示就是-n的缩写,不写n了,建议最好写,容易混,比如当#为-1时,就必须用-n -1才行。

-q:--quiet,--silent ,当显示多个文件时,开头不显示文件名

-v: (默认)当显示多个文件时,开头显示文件名


以上和head一样,下面是tail的其他选项


--follow[=HOW]
--retry:主要用来配置--follow=name使用,当tail发现文件不存在了或者不可访问,它只会报告这个消息,不会继续监控文件尾部是否有追加内容了。
-f:(默认) 相当于 --follow=descriptor 跟踪显示文件fd新追加的内容,常用日志监控,但是如果文件已经不存在了或者被改名,他还是依然在监控。

-F:相当于 --follow=name --retry

--sleep-interval=NUMBER 轮询的时间,默认为1秒,可以修改

--pid=PID 例如make xxx >& makerr & tail --pid=$! -f makerr ,当编译结束时,pid结束,tail -f 也会自动结束追踪文件。

--max-unchanged-stats=N

5、Operating on fields(对字段的操作)

  • cut :Print selected parts of lines
  • paste :Merge lines of files
  • join :Join lines on a common field

    cut:

NAME
       cat - concatenate files and print on the standard output

SYNOPSIS
       cat [OPTION]... [FILE]...

With no FILE, or when FILE is -, read standard input.
-b --bytes=LIST
-c --characters=LIST
-d -delimiter=DELIM
-f --fields=LIST
-n
--complement
-s
LIST:n,n-,n-m.-m 区间,第n,第n-end 第n-第m,start-第m
DELIM(分隔符)
-c:
-n:

paste:

NAME
       paste - merge lines of files

SYNOPSIS
       paste [OPTION]... [FILE]...

默人按行把各个文件组合在组合在意,行与行之间默认用tab键作为分隔符
-d:--delimiters=LIST 用LIST中的分隔符,而不是使用默认的tab键,
-s:--serial 一次一个文件而不是每次一行来,就是一个文件的第一行和第二行用tab键来分隔然后和第三行tab键分隔,直到最后一样,就是把一个文件放到一行里面,几个文件就会生成几行,用管道传给cat -E -n 可以看得很清楚。可以用于什么呢?值得思考

组合使用

cat -n /etc/passwd | head -n 10 | tail -1 取第10行。

转载于:https://blog.51cto.com/lajifeiwomoshu/2045414

相关文章:

  • 关于栈和队列随想
  • HBase Client API 简析
  • 学倦乱语
  • MongoDB分布式存储的MapReduce并行查询
  • CentOS6.x安装nginx1.12.1
  • 【JDK1.8】JDK1.8集合源码阅读——TreeMap(二)
  • jstat 监控调整GC很好用
  • $(document).ready(function(){}), $().ready(function(){})和$(function(){})三者区别
  • RegexOptions.Compiled真的是性能杀手么?
  • Android 从服务器获取时间戳转换为年月日
  • java uuid第一次性能
  • 精度计算-大数乘小数
  • C#~异步编程再续~await与async引起的w3wp.exe崩溃-问题友好的解决
  • Android 中文API (68) —— BluetoothClass.Service
  • 一加3T解锁OEM、刷入TWRP、第三方ROM以及ROOT
  • 《用数据讲故事》作者Cole N. Knaflic:消除一切无效的图表
  • 【划重点】MySQL技术内幕:InnoDB存储引擎
  • 0基础学习移动端适配
  • CSS魔法堂:Absolute Positioning就这个样
  • Java 网络编程(2):UDP 的使用
  • JavaWeb(学习笔记二)
  • jquery cookie
  • js写一个简单的选项卡
  • k8s如何管理Pod
  • laravel5.5 视图共享数据
  • leetcode46 Permutation 排列组合
  • Mysql5.6主从复制
  • Python爬虫--- 1.3 BS4库的解析器
  • vuex 学习笔记 01
  • 机器学习 vs. 深度学习
  • 利用jquery编写加法运算验证码
  • 面试遇到的一些题
  • 爬虫模拟登陆 SegmentFault
  • 如何进阶一名有竞争力的程序员?
  • 我的zsh配置, 2019最新方案
  • [Shell 脚本] 备份网站文件至OSS服务(纯shell脚本无sdk) ...
  • #pragma 指令
  • (4)logging(日志模块)
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (附源码)springboot电竞专题网站 毕业设计 641314
  • (附源码)计算机毕业设计SSM智慧停车系统
  • (十)【Jmeter】线程(Threads(Users))之jp@gc - Stepping Thread Group (deprecated)
  • (四)图像的%2线性拉伸
  • (一)硬件制作--从零开始自制linux掌上电脑(F1C200S) <嵌入式项目>
  • (译) 函数式 JS #1:简介
  • (转)重识new
  • (转载)(官方)UE4--图像编程----着色器开发
  • (转载)跟我一起学习VIM - The Life Changing Editor
  • (轉貼) 2008 Altera 亞洲創新大賽 台灣學生成果傲視全球 [照片花絮] (SOC) (News)
  • .Net 4.0并行库实用性演练
  • .NET CLR基本术语
  • .NET Core 将实体类转换为 SQL(ORM 映射)
  • .NET Standard 的管理策略
  • .NET 服务 ServiceController
  • .NET 设计一套高性能的弱事件机制