python正则表达式
原子
原子是正则表达式中最基本的组成单位,每个正则表达式中至少有一个原子。常见的类型有:
a 普通字符作为原子
b 非打印字符作为原子
c 通用字符作为原子
d 原子表
\w 可以匹配一切字符
\d 匹配任意十进制数
\s 匹配任意一个空白字符
\W 匹配除了字母、数字、下划线的任意字符
\D 匹配除了十进制数的任意字符
\S 匹配除了空白字符的任意字符
元字符
所谓元字符就是正则表达式中具有一些特殊含义的字符,比如重复N次前面的字符等。
. 匹配任意字符
^ 匹配待搜索字符串开始位置
$ 匹配带搜索字符串借宿位置
* 匹配0、1、多次前面原子
? 匹配1次或者0次
+ 匹配一次或多次前面的原子
{n} 前面的原子出现了n次
{n,} 前面的原子至少出现了n次
{n,m}前面的原子至少出现了n次至多出现了m次
| t|s t或者s
() 模式单元
模式修正符
模式修正符可以在不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能。
I 匹配是忽略大小写
M 多行匹配
L 本地化识别匹配
U 取消贪婪模式
S 让.匹配换行符
贪婪模式
尽可能多的匹配
懒惰模式
尽可能少的匹配
正则表达式函数
re.match() 从字符串的头开始搜索,若字符串的开始不匹配直接结束
re.search() 从字符串中搜索符合条件字符,只要有符合条件的就返回结果
re.sub()
全局匹配函数
re.complie(正则表达式).findall(待搜索字符)找到所有匹配结果
str(data,‘utf-8‘)进行网址乱码转换
原文:https://www.cnblogs.com/millionzhao/p/9532461.html