grep (Global search REgular expression and Print out the line ):文本过滤(模式:pattern)工具
grep(支持正则表达式)
egrep(支持扩展正则表达式)
fgrep(不支持正则表达式搜索)
sed:stream editor,文本编辑工具
awk:文本报告生成器,功能更强大,
--color=auto: 对匹配到的文本着色显示
-m # 匹配#次后停止
-v 显示不被pattern匹配到的行
-i 忽略字符大小写
-n 显示匹配的行号
-c 统计匹配的行数
-o 仅显示匹配到的字符串
-q 静默模式,不输出任何信息
-A # after, 后#行
-B # before, 前#行
-C # context, 前后各#行
-e 实现多个选项间的逻辑or关系
grep –e ‘cat ’ -e ‘dog’ file
-w 匹配整个单词
-E 使用ERE 相当于egrep
-F 相当于fgrep,不支持正则表达式
-f file 根据模式文件处理
sed是一种流编辑器,它一次处理一行内容。
sde除了有模式空间外,还有一个保持空间,sde在使用高级编辑命令时则会激活保持空间
可以简单理解为:”模式空间“是sde的加工车间,而”保持空间“则为半成品仓库
-n 不输出模式空间内容到屏幕,即不自动打印
-e 多点编辑
-f /PATH/SCRIPT_FILE 从指定文件中读取编辑脚本
-r 支持使用扩展正则表达式
-i.bak 备份文件并原处编辑
d 删除模式空间匹配的行,并立即启用下一轮循环
p 打印当前模式空间内容,追加到默认输出之后
a \text 在指定行后面追加文本,支持使用\n实现多行追加
i \text 在行前面插入文本
c \text 替换行为单行或多行文本
w /path/file 保存模式空间中的内容至本地文件
r /path/file 读取指定文件的文本至模式空间中匹配到的行后
= 为模式空间中的行打印行号
! 模式空间中匹配行取反处理
P: 打印模式空间开端至\n内容,并追加到默认输出之前
h: 把模式空间中的内容覆盖至保持空间中
H: 把模式空间中的内容追加至保持空间中
g: 从保持空间取出数据覆盖至模式空间
G: 从保持空间取出内容追加至模式空间
x: 把模式空间中的内容与保持空间中的内容进行互换
n: 读取匹配到的行的下一行覆盖至模式空间
N: 读取匹配到的行的下一行追加至模式空间
d: 删除模式空间中的行
D: 删除多行模式空间中的所有行
注意:如果模式空间包含换行符,则删除直到第一个换行符的模式空间中的文本,并不会读取新的输入行,而使用合成的模式空间重新启动循环。如果模式空间不包含换行符,则会像发出d命令那样启动正常的新循环
awk介绍
awk:Aho, Weinberger, Kernighan,报告(报表)生成器,格式化文本输出
有多种版本:New awk(nawk),GNU awk( gawk)
gawk:模式扫描和处理语言
基本用法:
awk [options] ‘program‘ var=value file...
awk [options] ‘program‘ -f programfile var=value file...
awk [options] ‘program‘ ‘BEGIN{action;...}pattern{action;...}END{action...}‘ file...
awk程序可由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块共3部分组成
program通常是被放在单引号中,可以有多个,语句用分号分隔
print,printf
选项:
-F “分割符” 指明输入时用到的字段分割符
-v var=value 变量赋值
基本格式:awk [options] ‘program‘ file…
Program:pattern{action statements;..}
pattern和action
? pattern部分决定动作语句何时触发及触发事件
BEGIN,END
? action statements对数据进行处理,放在{}内指明
print, printf
分割符、域和记录
? awk执行时,由分隔符分隔的字段(域)标记$1,$2...$n称为域标识。 $0为所有域
注意:此时和shell中变量$符含义不同
? 文件的每一行称为记录
? 省略action,则默认执行 print $0 的操作
变量:内置变量和自定义变量
内建变量:
FS(input field seperator):输入字段分隔符,默认为空白字符
awk -v FS=‘:‘ ‘{print $1,FS,$3}’ /etc/passwd
awk –F: ‘{print $1,$3,$7}’ /etc/passwd
OFS(output field seperator):输出字段分隔符,默认为空白字符
awk -v FS=‘:’ -v OFS=‘:’ ‘{print $1,$3,$7}’ /etc/passwd
RS(input record seperator):输入记录分隔符,指定输入时的换行符
awk -v RS=‘ ‘ ‘{print }’ /etc/passwd
ORS(output record seperator):输出记录分隔符,输出时用指定符号代替换行符
awk -v RS=‘ ‘ -v ORS=‘###‘‘{print }’ /etc/passwd
NF(number of field):字段数量
awk -F:‘{print NF}’ /etc/fstab 引用内建变量时,变量前不需加$
awk -F:‘{print $(NF-1)}‘ /etc/passwd打印每一行最后一个字段
NR(number of record):行数
awk ‘{print NR}’ /etc/fstab ; awk END‘{print NR}’ /etc/fstab
FNR:各文件分别计数,行数(后面这几个内建变量知道就好,很少会用到)
FILENAME:当前文件名
ARGC:命令行参数的个数
ARGV数组,保存的是命令行所给定的各参数
自定义变量(区分字符大小写)
(1) -v var=value
(2) 在program中直接定义
算术操作符:
x+y, x-y, x*y, x/y, x%y, x^y
- x:转换为负数
+x:将字符串转换为数值
字符串操作符:没有符号的操作符,字符串连接
赋值操作符:
=, +=, -=, *=, /=, %=, ^=,++, --
下面两语句有何不同
? awk ‘BEGIN{i=0;print ++i,i}’
? awk ‘BEGIN{i=0;print i++,i}’
比较操作符:
==, !=, >, >=, <, <=
模式匹配符:
~:左边是否和右边匹配,包含
!~:是否不匹配
示例:
awk -F: ‘$0 ~ /root/{print $1}‘ /etc/passwd
awk ‘$0~“^root"‘ /etc/passwd
awk ‘$0 !~ /root/‘ /etc/passwd
awk -F: ‘$3==0’ /etc/passwd
逻辑操作符:与&&,或||,非!
示例:
? awk -F: ‘$3>=0 && $3<=1000 {print $1}‘ /etc/passwd
? awk -F: ‘$3==0 || $3>=1000 {print $1}‘ /etc/passwd
? awk -F: ‘!($3==0) {print $1}‘ /etc/passwd
? awk -F: ‘!($3>=500) {print $3}’ /etc/passwd
1.if-else
语法:if(condition){statement;…}[else statement]
if(condition1){statement1}else if(condition2){statement2}else{statement3}
使用场景:对awk取得的整行或某个字段做条件判断
2.while循环
语法:while(condition){statement;…}
条件“真”,进入循环;条件“假”,退出循环
使用场景:
对一行内的多个字段逐一类似处理时使用
对数组中的各元素逐一处理时使用
3.do-while循环
语法:do {statement;…}while(condition)
意义:无论真假,至少执行一次循环体
4.for循环
语法:for(expr1;expr2;expr3) {statement;…}
常见用法:
for(variable assignment;condition;iteration process)
{for-body}
特殊用法:能够遍历数组中的元素
语法:for(var in array) {for-body}
5.switch语句(多分支的if语句)(更多的作为字符串比较判断)
语法:
switch(expression) {case VALUE1 or /REGEXP/: statement1; caseVALUE2 or /REGEXP2/: statement2; ...; default: statementn}
6.break和continue
awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)
{if(i%2==0)continue;sum+=i}print sum}‘
awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)
{if(i==66)break;sum+=i}print sum}‘
break [n]
continue [n]
7.next
提前结束对本行处理而直接进入下一行处理(awk自身循环)
awk -F: ‘{if($3%2!=0) next; print $1,$3}‘ /etc/passwd
用户ID被2取余,如果不等于0则执行next,提前进入下一行处理,如果等于0则继续执行后续命令
关联数组:array[index-expression]
index-expression:
? (1) 可使用任意字符串;字符串要使用双引号括起来
? (2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”
? (3) 若要判断数组中是否存在某元素,要使用“index in array” 格式进行遍历
若要遍历数组中的每个元素,要使用for循环
for(var in array) {for-body}
注意:var会遍历array的每个索引
数值处理:
rand():返回0和1之间一个随机数
awk ‘BEGIN{srand();print int(rand()*100)}‘
awk ‘BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }‘
字符串处理:
? length([s]):返回指定字符串的长度
? sub(r,s,[t]):对t字符串搜索r表示模式匹配的内容,并将第一个匹配内容替换为s
echo "2008:08:08 08:08:08" | awk ‘sub(/:/,-",$1)‘
? gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容
echo "2008:08:08 08:08:08" | awk ‘gsub(/:/,“-",$0)‘
? split(s,array,[r]):以r为分隔符,切割字符串s,并将切割后的结果保存至array所表示的数组中,第一个索引值为1,第二个索引值为2,…
原文:https://blog.51cto.com/14230410/2378128