python re.match（）用法相关正则表达式

时间：2020-09-12 23:00:10 阅读：92 评论：0 收藏：0 [点我收藏+]

学习python爬虫时遇到了一个问题，书上有示例如下：

import re

line=‘Cats are smarter than dogs‘
matchObj=re.match(r‘(.*)are(.*?).*‘,line)

if matchObj:
    print(‘matchObj.group():‘,matchObj.group())
    print(‘matchObj.group(1):‘, matchObj.group(1))
    print(‘matchObj.group(2):‘, matchObj.group(2))
else:
    print(‘No match!\n‘)

书上的期望输出是：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2):smarter

但是我在电脑上跑了一遍得到的输出却是：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2):

于是开始想办法彻底搞清楚这个差别的原因所在。

首先要读懂这几行代码，而这一行代码的关键在于这一句：

matchObj=re.match(r‘(.*)are(.*?).*‘,line)

匹配的正则表达式是

(.*)are(.*?).*
前面的r表示的是匹配的字符不进行转义，而要匹配的字符串是line，也就是

Cats are smarter than dogs
后面使用group（num），个人理解是，按照正则表达式中的括号数可以捕获得到对应数量的捕获组，而调用group（num）就可以得到对应捕获组的内容，
其中group（0）表示的是匹配的整个表达式的字符串，在本例中就是‘Cats are smarter than dogs’。
参照网上可以搜到的符号的作用：
.匹配除换行符以外的任意字符
*重复之前的字符零次或更多次
？重复之前的字符零次或一次
那么第一个括号的内容，应当就是匹配要匹配的字符串中are之前的所有字符（除换行符），
而第二个括号的内容应当是匹配are之后的内容，但具体想指代什么却显得有些不明确。
不明确的点就在于*和？这两个符号的连用，根据优先级这两个符号是同一优先级的，那么应当按照顺序生效，那么如此翻译的话，这一语句匹配的就是长度为0到无限大的任意字符串，为了探清此时
程序判断的具体内容，我们给匹配字符串末尾的.*也加上括号以提取其内容，而后在输出部分加上对应语句：

import re

line=‘Cats are smarter than dogs‘
matchObj=re.match(r‘(.*)are(.*?)(.*)‘,line)

if matchObj:
    print("matchObj.group():",matchObj.group())
    print("matchObj.group(1):", matchObj.group(1))
    print("matchObj.group(2):", matchObj.group(2))
    print("matchObj.group(3):", matchObj.group(3))
else:
    print(‘No match!\n‘)

得到的结果是：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2): 
matchObj.group(3):  smarter than dogs

可见第二个括号里的内容被默认为空了，然后删去那个？，可以看到结果变成：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2):  smarter than dogs
matchObj.group(3):

那么这是否就意味着？的默认值很可能是0次，那？这个符号到底有什么用呢

今天歇了，明天再研究

python re.match（）用法相关正则表达式

原文：https://www.cnblogs.com/forever3329/p/13658471.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

python re.match（）用法相关 正则表达式

python re.match（）用法相关正则表达式