当前位置: 首页 > news >正文

Pyp 替代sed,awk的文本处理工具

Linux上文本处理工具虽不少,像cut,tr,join,split,paste,sort,uniq,sed,awk这些经典工具让人眼花缭乱,而且都太老了,使用方法都不太人性化,尤其awk,语法简直反人类;所以perl,python,ruby等脚本语言相当热火,我倾向用python,但处理一些简单任务python写的还是比较麻烦,无法一行命令解决,直到我发现了它-Pyp!

Pyp(Pyed piper)–一个python写的类似sed,awk的文本处理工具,简单优雅而强大~

安装:

ubuntu官方源就有:

?
1aptitude install pyp

基本使用:

echo ‘string’ | pyp “命令”

一些例子:

pyp的命令用双引号””包围起来,双引号里字符串用单引号’包围

变量p:将每行作为一个字符串,p就是这这个字符串,python的字符串方法都可以用,譬如字符替换:

?
1cat test.txt |pyp "p.replace('123','abc')"

变量pp:将整个文本当做一个列表,每行是个列表元素,列表方法都可以使用,譬如行排序:

?
1cat test.txt |pyp "pp.sort()"

管道:

pyp的命令可以内嵌管道,此时管道后p或pp代表前一个命令的输出,类似unix下的标准管道:

?
1echo 'FOO IS AN ' | pyp  p.replace('FOO','THIS')|p+'EXAMPLE'"

这个例子通过管道将replace后的字符串再当做p,增加了额外字符串’EXAMPLE’

分割:

?
1echo /this/is/a/splitting/example | pyp "p.split('/')"

将产生一个有序号的输出

算数运算:

算数运算要用()包裹起来

echo 'qwe665' | pyp "(int(p[3:]) + 1)"

同时处理两个文本:

使用“–text_file”标识可以操处理第二个文本,类似于”p””pp”,第二个文本行和整体用变量”fp””fpp”替代:

cat a.txt | pyp "p + fp" --text_file b.txt

正则表达式:

pyp也支持正则,p.re(正则表达式)就行

cat a.txt  | pyp  "p.replace(p.re('^#.*'),'')"

这句就删掉所有注释行

 

特殊变量:

p
pp
original        //original line by line input to pyp
o            ​//same as original
sp            //second steam line input, just like p, but from all non-flag arguments AFTER pyp
quote            ​//a literal ” (double quotes can’t be used in a pyp expression)
paran            //a literal ‘
dollar            //a literal $
n            //line counter (1st line is 0, 2nd line is 1,…use the form “(n+3)” to modify this value.
nk            ​//n + 1000
date            //date and time. Returns the current datetime.datetime.now() object.
pwd            //present working directory
history            ​//history array of all previous results: so pyp “a|u|s|i|h[-3]” shows eval of s
h            //same as history
letters            //abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
digits            ​//0123456789
punctuation        //!”#$%&'()*+,-./:;<=>?@[]^_{|}~`

与split和join有关的变量:

s  OR slash        //p split/joined on “/”
d  OR dot        //p split/joined on “.”
w  OR whitespace    //p split on whitespace (on spaces,tabs,etc), joined on spaces
u  OR underscore    //p split/joined on ‘_’
c  OR colon        //p split/joined on ‘:’
mm OR comma        //p split/joined on ‘,’
m  OR minus        //p split/joined on ‘-‘
a  OR all        //p split on [‘ ‘-_=$…] (on “All” metacharacters)

与p有关变量:

p.dir        path DIRECTORY
p.file        path FILE
p.ext        path EXTENSION

行级操作:

pyp “p”                //直接打印各行
pyp “p +’FOO'”            //每行append字符串
pyp “p +’FOO’| p + o”        //append的新字符串再与老字符串做操作
pyp “p.replace(‘FOO’,’GOO’)”    //字符串替换
pyp “p.kill(‘GOO’)”        //删除特定字符串

string substitution pyp “‘%s FOO %s %s GOO’%(p,p,5)”

pyp “p.split(‘FOO’)”                //分割成列表
pyp “slash”                    //用’/’分割成列表的简写
pyp “slash[0]”                    ​//用’/’分割成列表并选取第一列
pyp “s[2:6]”                    //用’/’分割成列表并选取多列
pyp “s[2:6] | s”                ​//用’/’分割成列表并选取多列再用’/’拼接
echo ‘qwe665′ | pyp “(int(p[3:]) + 1)”        //算数操作(要用()包围)
pyp “p.replace(p.re(REGEX),STR)”        //正则表达式
pyp “p.letters()”                //只输出字符
pyp “p.digits()”                //只输出数字
pyp “p.punctuation()”                //只输出标点
pyp “p.clean(DELIM)”                //处理乱码字符,将其替换为DELIM

文本当做列表操作:

pyp “pp”            ​//输出整个文本
pyp “pp.sort()”            //排序
pyp “pp.uniq”            //去重
pyp “pp.oneline”        //合并所有列表元素到一行字符串,元素间以空格分开
pyp “pp.unlist()”        //不知道什么意思
pyp.divide(N)            //每N个元素合并一个新列表
pyp “pp.before(‘FOO'[,n])”    //输出指定字符串的上面n行,默认为一行
pyp “pp.after(‘FOO'[,n])”    //输出指定字符串的下面n行,默认为一行
pyp “pp.matrix(‘FOO'[,n])”    //输出指定字符串的上下面各n行,默认为一行
pyp “[x for x in pp]”        //遍历列表
pyp “pp.sort() | p”        //文本当做列表处理完再转换成文本
pyp “pp.delimit(DELIM)”        //自定义分隔符而不是默认的换行符

相关文章

 

相关文章:

  • 看电影读小说,你就能懂经济学
  • android 开发环境安装和测试中常出现的问题
  • 转---9 个开始使用 C++11 的理由
  • 技本功丨呀~我不会写CSS之vertical-align(上集)
  • 如何正确理解,内页权重高于首页?
  • Android adb 修改手机代理方式
  • 曜石科技宣布获得千万级天使轮投资,全方面布局电竞产业链 ...
  • 不测的秘密:精准测试之路----读书笔记(第四章)
  • (译) 函数式 JS #1:简介
  • 独热编码
  • Intellij Idea 关闭自动保存、标记修改未保存文件为星号、修改内存大小
  • 【18】让接口容易被正确使用,不易被误用
  • 【S13】vector和string优先于动态分配的内存
  • java程序调用序列,存储过程,函数等
  • mysql 1
  • 【跃迁之路】【669天】程序员高效学习方法论探索系列(实验阶段426-2018.12.13)...
  • express如何解决request entity too large问题
  • flask接收请求并推入栈
  • k8s 面向应用开发者的基础命令
  • python docx文档转html页面
  • sessionStorage和localStorage
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 如何编写一个可升级的智能合约
  • 微信端页面使用-webkit-box和绝对定位时,元素上移的问题
  • 微信小程序:实现悬浮返回和分享按钮
  • 与 ConTeXt MkIV 官方文档的接驳
  • 走向全栈之MongoDB的使用
  • (6)设计一个TimeMap
  • (bean配置类的注解开发)学习Spring的第十三天
  • (C#)Windows Shell 外壳编程系列4 - 上下文菜单(iContextMenu)(二)嵌入菜单和执行命令...
  • (libusb) usb口自动刷新
  • (补)B+树一些思想
  • (附源码)ssm教师工作量核算统计系统 毕业设计 162307
  • (附源码)ssm考生评分系统 毕业设计 071114
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (力扣题库)跳跃游戏II(c++)
  • (一)Neo4j下载安装以及初次使用
  • (转)我也是一只IT小小鸟
  • (转载)深入super,看Python如何解决钻石继承难题
  • .bashrc在哪里,alias妙用
  • .NET 8.0 中有哪些新的变化?
  • .Net转前端开发-启航篇,如何定制博客园主题
  • [1]-基于图搜索的路径规划基础
  • [AIGC] 开源流程引擎哪个好,如何选型?
  • [Android] Android ActivityManager
  • [Angular] 笔记 20:NgContent
  • [BUG]Datax写入数据到psql报不能序列化特殊字符
  • [BZOJ] 1001: [BeiJing2006]狼抓兔子
  • [C#]使用DlibDotNet人脸检测人脸68特征点识别人脸5特征点识别人脸对齐人脸比对FaceMesh
  • [C++]AVL树怎么转
  • [C++随笔录] 红黑树
  • [CISCN2019 华东北赛区]Web2
  • [CVPR 2023:3D Gaussian Splatting:实时的神经场渲染]
  • [Git 1]基本操作与协同开发
  • [Jquery] 实现温度计动画效果