笔记-python-lib-re

时间：2018-09-17 23:27:11 阅读：228 评论：0 收藏：0 [点我收藏+]

笔记-python-lib-re

1. re模块简介

re模块提供了与perl类似的正则匹配功能。

要搜索的模式和字符串都可以是Unicode字符串（str）以及8位字符串（bytes）。但是，不能混合Unicode字符串和8位字符串：也就是说，不能将Unicode字符串与字节模式匹配，反之亦然。

反斜杠：正则表达式使用了\表示转义，如果要匹配一个反斜杠，需要写成\\\\作为模式字符串。

另一种办法是声明字符串中的\不会以特殊方式处理，在字符串前加r，r’\n’是两个字符，而不是换行；

2. 模块内容

2.1. compile

re.compile(pattern, flags=0)

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

参数：

pattern:一个字符串形式的正则表达式

flags:可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

re.I 忽略大小写

re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境

re.M 多行模式，影响^和$

re.S 意为‘ . ‘包括换行符在内的任意字符（一般‘ . ‘不包括换行符）

re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

re.X 为了增加可读性，忽略空格和‘ # ‘后面的注释

example:

pattern = re.compile(r’\d+?’)

2.2. match

re.match(pattern, string, flags=0)

判断RE是否在字符串刚开始的位置匹配，返回match object。

注意：只要字符串开始部分满足匹配即成功，如果想要整串匹配可加$符。

example:

s = re.match(‘[a-z]+‘, str1)

2.3. search

re.search(pattern, string, flags=0)

在字符串内查找模式匹配，只要找到第一个匹配然后返回一个match object对象，如果没有则返回None。

<_sre.SRE_Match object; span=(0, 5), match=‘eoorg‘>

2.4. split

split(pattern, string, maxsplit=0, flags=0)

以模式匹配的字符串的为界拆分字符串；

如果使用()，则模式组也包含在结果中；

str1 = ‘eoorg943443g382\jgdo 349po\oer g34 345364 sfwe fwegre ewfwe fwef‘

s = re.split(r‘\d+‘, str1, 4)

[‘eoorg‘, ‘g‘, ‘\\jgdo ‘, ‘po\\oer g‘, ‘ 345364 sfwe fwegre ewfwe fwef‘]

s = re.split(r‘(\d+)‘, str1, 4)

[‘eoorg‘, ‘943443‘, ‘g‘, ‘382‘, ‘\\jgdo ‘, ‘349‘, ‘po\\oer g‘, ‘34‘, ‘ 345364 sfwe fwegre ewfwe fwef‘]

maxsplit指定最大拆分次数，达到次数后，剩余字符串作为列表元素添加到列表尾部。

2.5. findall

findall(pattern, string, flags=0)

遍历匹配，获取字符串中所有匹配的字符串，返回一个列表；如果模式有多个组，返回元组列表。

2.6. sub

sub(pattern, repl, string, count=0, flags=0)

替换匹配的子串，返回替换后的字符串。

str1 = ‘JGOOD is a handome boy, he is cool, clever, and so on...‘

s = re.sub(‘\s+‘, ‘-‘, str1)

print(s)

参数count指替换个数，默认为0，表示每个匹配项都替换。

2.7. subn

subn(pattern, repl, string, count=0, flags=0)

与sub所做操作一样，但返回一个元组，(new_string, number_of_sub_made)。

2.8. match objects

上面讲过search,match会返回一个match object

str1 = ‘JGOOD is a handome boy, he is cool, clever, and so on...‘

s = re.search(‘[a-z]+‘, str1)

print(s)

<_sre.SRE_Match object; span=(6, 8), match=‘is‘>

match objects支持以下方法和属性：

match.group([group1]) 可以不带参数，表示所有匹配项；带参数则表示参数所对应的项；

str1 = ‘JGOOD is a handome boy, he is cool, clever, and so on...‘

pattern = re.compile(r‘\s+‘)

s = re.match(‘(\w+)\s(\w+)‘, str1)

print(s)

<_sre.SRE_Match object; span=(0, 8), match=‘JGOOD is‘>

>>> s.group()

‘JGOOD is‘

>>> s.group(1)

‘JGOOD‘

>>> s.group(2)

‘is‘

>>>

match.groups() 返回一个tuple，包含所有子组

match.start()

match.end() 返回匹配结果开始结束字符的下标

match.span() 与上文同义，返回匹配结果开始结束下标，格式是元组；

match.re 以re.compile(‘(\\w+)\\s(\\w+)‘)格式返回该对象使用的正则表达式

笔记-python-lib-re

原文：https://www.cnblogs.com/wodeboke-y/p/9665369.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)