正则表达式

时间：2019-02-22 14:29:00 阅读：174 评论：0 收藏：0 [点我收藏+]

匹配测试

. 　匹配除\n换行符之外的任何单个字符。

[ ] 　匹配括号中的任何一个字符。如果要想匹配二十六个英文字母中的任意一个怎么写呢？ a[a-z]b 如果也想匹配大写的A—Z的话，需要这么写 a[a-zA-Z]b

| 　将两个匹配条件进行逻辑“或”运算。如a[a|b]b z|food 要么是z，要么是food (z|f)ood 加小括号改变优先级

( ) 　将 () 之间括起来的表达式定义为“组”(group)，并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体。改变优先级、定义提取组两个作用。

元字符2（限定符）：

*　　匹配0至多个在它之前的子表达式，和通配符*没关系。如 zoo* ,*表示可以出现0次，也可以出现多次。（可有可无，可多可少）

+　　匹配前面的子表达式一次或多次如zoo+ ,+表示可以出现一次，或者是多次。（至少得出现一次。）注意：* +只表示o的出现次数，要是想表示前面的整个表达式，得用小括号括起来。

?　　匹配前面的子表达式零次或一次。如zoo? ，要么0次，要么1次。

{n} 　匹配确定的 n 次。

{n,m} 最少匹配 n 次且最多匹配 m 次。

元字符3

^（shift+6）　匹配一行的开始。如^xxx. 表示字符串必须以三个先开头，后面跟任意的单个字符。它还有一个意思就是取反的意思，如 a[^a-zA-Z0-9]b 表示中间去大小写字符和数字都不行。

$ 　　　　　匹配行结束符。如xxx.$ 表示结尾必须以xxx加任意字符结束。

接下来我们再看一些个元字符（一些简写的方式）：

\d　　代表一个数字，等同于[0-9] 如a[0-9]b a\db

\D　　代表非数字，等同于[^0-9]

\s　　代表换行符、Tab制表符等空白字符 ,(空格、回车、制表符)

\S　　代表非空白字符（a0%$@@）

\w　　匹配字母或数字或下划线或汉字，即能组成单词的字符,除%&#@!$等字符。[a-zA-Z0-9_汉字]

\W　　非\w ，等同于[^\w] %

import re

match（‘正则表达式’，‘要匹配的字符串‘）#对象=re.match() 从字符串开头匹配
span（）　　输出匹配范围　　 #对象.span()
group()　　　　正则中把要提取的用括号扩出来，输出时第几个括号就group（几）

.*　　贪婪匹配，匹配尽可能多

.*？　　非贪婪匹配，匹配尽可能少　　　　　　　　　　#字符串中间尽可能用非贪婪，避免结果缺失

常用修饰符　　#用在match search的参数里
- re.I　　使大小写敏感
- re.S　使 . 匹配包括换行符　　　　大多数html包含换行符，匹配时尽量都加
转义匹配
- 　　在要转的前面加上 \
search(‘正则表达式’，‘要匹配的字符串‘)　　匹配时扫描整个字符串，返回第一个成功的结果
findall(‘正则表达式’，‘要匹配的字符串‘))　　匹配时扫描整个字符串，返回所有成功的结果　　
sub(‘能匹配要替换部分的正则‘，‘将要替换为的字符串‘，‘原字符串‘)　　　　修改文本

compile()

将正则字符串编译成正则表达对象，便于复用　　

 import re
 content1=2016-12-15 12:00
 content2=2016-12-17 12:55
 content3=2016-12-22 13:21
 pattern=re.compile(\d{2):\d(2)) 
 result1 =re. sub(pattern,‘‘,content1)
 result2=re. sub(pattern,‘‘,content2)
 result3= re. sub(pattern,‘‘,content3) 
print(result1,result2, result3)

正则表达式

原文：https://www.cnblogs.com/vector-wyw/p/10417988.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)