学习python爬虫时遇到了一个问题,书上有示例如下:
import re line=‘Cats are smarter than dogs‘ matchObj=re.match(r‘(.*)are(.*?).*‘,line) if matchObj: print(‘matchObj.group():‘,matchObj.group()) print(‘matchObj.group(1):‘, matchObj.group(1)) print(‘matchObj.group(2):‘, matchObj.group(2)) else: print(‘No match!\n‘)
书上的期望输出是:
matchObj.group(): Cats are smarter than dogs matchObj.group(1): Cats matchObj.group(2):smarter
但是我在电脑上跑了一遍得到的输出却是:
matchObj.group(): Cats are smarter than dogs matchObj.group(1): Cats matchObj.group(2):
于是开始想办法彻底搞清楚这个差别的原因所在。
首先要读懂这几行代码,而这一行代码的关键在于这一句:
matchObj=re.match(r‘(.*)are(.*?).*‘,line)
匹配的正则表达式是
(.*)are(.*?).*
前面的r表示的是匹配的字符不进行转义,而要匹配的字符串是line,也就是
Cats are smarter than dogs
后面使用group(num),个人理解是,按照正则表达式中的括号数可以捕获得到对应数量的捕获组,而调用group(num)就可以得到对应捕获组的内容,
其中group(0)表示的是匹配的整个表达式的字符串,在本例中就是‘Cats are smarter than dogs’。
参照网上可以搜到的符号的作用:
.匹配除换行符以外的任意字符
*重复之前的字符零次或更多次
?重复之前的字符零次或一次
那么第一个括号的内容,应当就是匹配要匹配的字符串中are之前的所有字符(除换行符),
而第二个括号的内容应当是匹配are之后的内容,但具体想指代什么却显得有些不明确。
不明确的点就在于*和?这两个符号的连用,根据优先级这两个符号是同一优先级的,那么应当按照顺序生效,那么如此翻译的话,这一语句匹配的就是长度为0到无限大的任意字符串,为了探清此时
程序判断的具体内容,我们给匹配字符串末尾的.*也加上括号以提取其内容,而后在输出部分加上对应语句:
import re line=‘Cats are smarter than dogs‘ matchObj=re.match(r‘(.*)are(.*?)(.*)‘,line) if matchObj: print("matchObj.group():",matchObj.group()) print("matchObj.group(1):", matchObj.group(1)) print("matchObj.group(2):", matchObj.group(2)) print("matchObj.group(3):", matchObj.group(3)) else: print(‘No match!\n‘)
得到的结果是:
matchObj.group(): Cats are smarter than dogs matchObj.group(1): Cats matchObj.group(2): matchObj.group(3): smarter than dogs
可见第二个括号里的内容被默认为空了,然后删去那个?,可以看到结果变成:
matchObj.group(): Cats are smarter than dogs matchObj.group(1): Cats matchObj.group(2): smarter than dogs matchObj.group(3):
那么这是否就意味着?的默认值很可能是0次,那?这个符号到底有什么用呢
今天歇了,明天再研究
原文:https://www.cnblogs.com/forever3329/p/13658471.html