正则表达式

时间：2019-07-18 02:04:42 阅读：98 评论：0 收藏：0 [点我收藏+]

什么是正则表达式：

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

匹配：

直接匹配：

1. 直接输入字符串，它就会匹配这个字符串

元字符：

. 匹配除了换行符以外的任意字符

\w 匹配字母或下划线

\s 匹配任意的空白符

\d 匹配数字

\n 匹配一个换行符

\t 匹配一个制表符

\b 匹配一个单词的结尾

^ 匹配字符串的开头

$ 匹配字符串的结尾

\W 匹配非字母或数字或下划线

\D 匹配非数字

\S 匹配非空白符

a|b 匹配字符a或b，通常把长的放在前面

() 匹配括号内的表达式，也表示为一个组

[...] 匹配字符组中的字符

... 匹配除了字符组中的所有字符

.	匹配除了换行符以外的任意字符
\w	匹配字母或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾
^	匹配字符串的开头
$	匹配字符串的结尾
\W	匹配非字母或数字或下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或b，通常把长的放在前面
()	匹配括号内的表达式，也表示为一个组
[...]	匹配字符组中的字符
...	匹配除了字符组中的所有字符

量词:

# 不会单独用，要和元字符匹配使用

* 重复零次或更多次

+ 重复一次或更多次

？重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

*	重复零次或更多次
+	重复一次或更多次
？	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

.^*

正则待匹配字符匹配结果说明

海. 海北海南海东海北海南海东匹配海后面的字符，到下一个海字停下

^海. 海北海南海东海北只找开头的第一个海(开头)

海.$ 海北海南海东海东查找海的最后一个(结尾)

正则	待匹配字符	匹配结果	说明
海.	海北海南海东	海北海南海东	匹配海后面的字符，到下一个海字停下
^海.	海北海南海东	海北	只找开头的第一个海(开头)
海.$	海北海南海东	海东	查找海的最后一个(结尾)

*+?{}

正则待匹配字符匹配结果说明

李.? 李华和李大一和李二三李华李大李二 ?表示只重复一次,就只匹配李后面的第一个任意字符

李.* 李华和李大一和李二三李华和李大一和李二三 *表示重复零次和多次，所以他会(贪婪匹配)匹配第一个李后面的所有字符，？转义

李.+ 李华和李大一和李二三李华和李大一和李二三 +表示重复一次或多次,默认是多次，(贪婪匹配),可以用？改变

李.{1,2} 李华和李大一和李二三李华和李大一李二三 {1，2}匹配李后面的 1到2的任意字符

前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

正则	待匹配字符	匹配结果	说明
李.?	李华和李大一和李二三	李华李大李二	?表示只重复一次,就只匹配李后面的第一个任意字符
李.*	李华和李大一和李二三	李华和李大一和李二三	*表示重复零次和多次，所以他会(贪婪匹配)匹配第一个李后面的所有字符，？转义
李.+	李华和李大一和李二三	李华和李大一和李二三	+表示重复一次或多次,默认是多次，(贪婪匹配),可以用？改变
李.{1,2}	李华和李大一和李二三	李华和李大一李二三	{1，2}匹配李后面的 1到2的任意字符

字符集［］［^］

正则待匹配字符匹配结果说明

李[杰莲英二棍子]* 李杰和李莲英和李二棍子李杰李莲英李二棍子表示匹配"李"字后面[杰莲英二棍子]的字符任意次

李和* 李杰和李莲英和李二棍子李杰李莲英李二棍子表示匹配一个不是"和"的字符任意次

[\d] 456bdha3 4 5 6 3 表示匹配任意一个数字，匹配到4个结果

[\d]+ 456bdha3 456 3 表示匹配任意个数字，匹配到2个结果

正则	待匹配字符	匹配结果	说明
李[杰莲英二棍子]*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配"李"字后面[杰莲英二棍子]的字符任意次
李和*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配一个不是"和"的字符任意次
[\d]	456bdha3	4 5 6 3	表示匹配任意一个数字，匹配到4个结果
[\d]+	456bdha3	456 3	表示匹配任意个数字，匹配到2个结果

转义符 \

在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对""进行转义，变成‘\‘。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\n",字符串中要写成‘\n‘，那么正则里就要写成"\\n",这样就太麻烦了。这个时候我们就用到了r‘\n‘这个概念，此时的正则是r‘\n‘就可以了。

正则待匹配字符匹配结果说明

\n \n False 因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本身，用表达式\n无法匹配

\n \n True 转义\之后变成\，即可匹配

"\\n" ‘\n‘ True 如果在python中，字符串中的‘‘也需要转义，所以每一个字符串‘‘又需要转义一次

r‘\n‘ r‘\n‘ True 在字符串之前加r，让整个字符串不转义

正则	待匹配字符	匹配结果	说明
\n	\n	False	因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本身，用表达式\n无法匹配
\n	\n	True	转义\之后变成\，即可匹配
"\\n"	‘\n‘	True	如果在python中，字符串中的‘‘也需要转义，所以每一个字符串‘‘又需要转义一次
r‘\n‘	r‘\n‘	True	在字符串之前加r，让整个字符串不转义

贪婪匹配

贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

正则待匹配字符匹配结果说明

<.*> <script>...<script> <script>...<script> 默认为贪婪匹配模式，会匹配尽量长的字符串

<.*?> r‘\d‘ <script> <script> 加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

正则	待匹配字符	匹配结果	说明
<.*>	<script>...<script>	<script>...<script>	默认为贪婪匹配模式，会匹配尽量长的字符串
<.*?>	r‘\d‘	<script> <script>	加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

几个常用的非贪婪匹配Pattern

*? 重复任意次，但尽可能少重复 +? 重复1次或更多次，但尽可能少重复 ?? 重复0次或1次，但尽可能少重复 {n,m}? 重复n到m次，但尽可能少重复 {n,}? 重复n次以上，但尽可能少重复

.*?的用法

. 是任意字符 * 是取 0 至无限长度 ? 是非贪婪模式。何在一起就是取尽量少的任意字符，一般不会这么单独写，他大多用在： .*?x

就是取前面任意长度的字符，直到一个x出现

正则表达式

原文：https://www.cnblogs.com/pscly/p/11204424.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

正则表达式

什么是 正则表达式：

匹配：

什么是正则表达式：