文本检索秘技之正则表达式grep和egrep

时间：2014-02-22 15:16:56 阅读：425 评论：0 收藏：0 [点我收藏+]

一、总纲（何为正则）

所谓正则，又称正则表达式、正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。（维基百科如是说）

为了便于理解，可以将正则想象成为普通语言，普通字符对应的是普通文字，而元字符则对应语法，根据语言的规则，按照语法将文字组合起来，就会表述出你想说的话即想要的文本。

第一式 grep是什么

grep（global search regular expression（RE）是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。UNIX的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展，支持更多的re元字符，fgrep就是fixed grep或fast grep，它们把所有的字母都看做单词，也就是说，正则表达式中的元字符表示回其自身的字面意义，不再特殊。linux使用GNU版本的grep。它功能更强，可以通过-G、-E、-F命令行选项来使用egrep和fgrep的功能。

格式：

grep [OPTIONS] PATTERN [FILE...]

grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

第一招：常用选项[OPTIONS]

-v: 反向，显示不能被模式所匹配到的行；

#检索文件/etc/passwd中非#的行
grep -v "#" /etc/passwd

-o: 仅显示被模式匹配到的字串，而非整行；

#检索/etc/passwd文件中有没有rpcuser用户
    grep -o "rpcuser" /etc/passwd

-i: 不区分字符大小写, ignore-case

#检索/etc/fstab中包含u中间跟两个任意字符，最后一个字符为d的行，不区分大小写
grep --color -i "u..d" /etc/fstab

-E: 支持扩展的正则表达式（加-E可以使用grep启用egrep的功能 grep -E）

-A #:之后的几行字符

- B #：之前的几行字符

-C #:上下两行

-n: 显示匹配行及行号,在显示出内容的每行前面会显示行数

第二招：模式（PATTERN）

元字符：不表示字符本身的意义，用于额外功能性的描述

字符匹配：

.: 任意单个字符

#在/etc/passwd文件中检索包含r后面跟两个字符，然后是t的行
grep --color "r..t" /etc/passwd

[ ]: 指定范围内的任意单个字符

#在/etc/inittab下检索以S或s后面接任意一个字符，之后是s的行
grep --color "[sS].s" /etc/fstab

[[:digit:]] 匹配任何一个数字（[0-9]）

grep --color "jin[[:digit:]]" /etc/passwd

[[:alnum:]] 匹配任何一个字母或数字（[A-Za-z0-9]）

[[:alpha:]] 匹配任何一个字母（[A－Za－z])

[[:lower:]] 匹配任何一个小写字母（[a-z]）

[[:upper:]] 匹配任何一个大写字母（[A-Z]）

[[:space:]] 任何一个空白字符：制表符、空格

[[:punct:]] 任何一个标点符号（不包括：[:alnum:]、[:cntrl:]、[:space:]字符集）

[^]：指定范围外的任意单个字符

#在/etc/selinux/config下检索非标点符号开始的行
grep --color "^[^[:punct:]].*" /etc/selinux/config

位置锚定：用于指定字符出现的位置

^: 锚定行首

$: 锚定行尾

#以bash结尾的行
grep --color "bash$" /etc/passwd

^$: 空白行

#统计/etc/init/tty.conf文件中的空行数
grep "^$" /etc/init/tty.conf |wc -l

\<char: 锚定词首，也可以写成\bchar（注：\b是元字符）

char\>: 锚定词尾，char\b（注:\b也可以用于锚定词尾）

#以s结尾前面以三个任意字符开头的系统用户
grep --color "^...s\b" /etc/passwd

次数匹配：用来指定匹配其前面的字符的次数

*: 任意次(0次或多次)

a*b重复a为零次或多次（贪婪模式：尽可能的长的去匹配字符；）

.*: 匹配任意长度的任意字符

\?: 0次或1次（a\?b 则表示a的匹配一次或一次都没有）

ab*xy：则表示只能匹配*号之前b任意次b(0或多次)

\{m\}: 匹配m次

\{m,n\}:最少匹配m次，最多匹配n次

\{m,\}: 至少m次;

\{0,n\}:至多n次;

分组：

#检索文件中包含w字符之以es为组后面接t然后任意字符，组es重复一次的行
grep --color "w\(es\).*\1" test.txt

（es）被作为一个组看待，它是一个组，它的名称是1，然后 .*表示之后的任意个字符，[\1]指代的是前面用括号括起来的es。那么 egrep 里的 w(es)t.*\1 就是说 west后面任意字符，再然后再出现es的，这种行被匹配到

引用：

\1: 后向引用，引用前面的第一个左括号以及与之对应的右括号中的模式所匹配到的内容。（后向引用可以有多次，方法\#(#：数字)）

第二式：egrep(grep -E)

为 grep 的扩充版本, 改良了许多传统 grep 不能或不便的操作. 比方说:

- grep 之下不支持 ? 与 + 这两种 modifier, 但 egrep 则可.

注：

?: 匹配其前面的字符0或1次；

+: 匹配其前面的字符至少1次

｜：表示或关系，比如 ‘gd|good|dog‘ 表示有gd,good或dog的串

（):将部分内容合成一个单元组。比如要搜索 glad 或 good 可以这样 ‘g(la|oo)d‘，()的好处是可以对小组使用 + ? * 等。

比如要搜索A和C开头结尾，中间有至少一个(xyz) 的串，可以这样 : ‘A(xyz)+C‘

- grep 不支持 a|b 或 (abc|xyz) 这类"或一"比对, 但 egrep 则可.

#输出包含1或2的行
grep --color ‘\(1\|2\)‘ /etc/inittab
#或
grep --color -E ‘(1|2)‘ /etc/inittab

- grep 在处理 {n,m} 时, 需用 \{ 与 \} 处理, 但 egrep 则不需.

诸如此类的... 我个人会建议能用 egrep 就不用 grep 啦..

第三式：fgrep

不作 RE 处理, 表达式仅作一般字符串处理, 所有 meta 均失去功能.

===================================完=========================================

PS:

以上是本人学习整理内容，如有出入，欢迎各种砖头瓦块.a_c

本文出自 “在阳光下挥洒汗水” 博客，请务必保留此出处http://essun.blog.51cto.com/721033/1361920

文本检索秘技之正则表达式grep和egrep

原文：http://essun.blog.51cto.com/721033/1361920

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)