python RE的match()和group()疑问
>> m = re.match(r"(..)+", "a1b2c3") # Matches 3 times. >> m.group(1) # Returns only the last match. ‘c3‘ >> m.group(0) ‘a1b2c3‘ >> m.groups() (‘c3‘,)
注意到pattern中的+,应该是匹配偶数个字符.
1.首先是match的问题.match是从开头匹配,为什么会匹配到c3呢?
2.group(0)是整个匹配项,为什么groups()中没有呢?
网上回答:
1.首先是match的问题.match是从开头匹配,为什么会匹配到c3呢?
首先不考虑捕获的问题,去掉捕获的(?:..)+是匹配2个任意字符的多个子串,当然可以匹配到c3.
2.group(0)是整个匹配项,为什么groups()中没有呢?
需要从表达式的解析说起,表达式的字面义上看只有一对括号,因此(..)+只有1个group(1)的捕获组,每次捕获都存在1号捕获组。
而group(0)的实现是把历史匹配过成功的字符串返回,与捕获组无关:
>> m = re.match(r"(..)..(..)", "a1b2c3") >> m.groups() (‘a1‘, ‘c3‘)
>> m.group(0) ‘a1b2c3‘
而groups的实现其实是group(1-99),因此group只支持到99个。因此groups也只有一个捕获组的内容会给你:)
建议读一下官方文档,然后做测试。
我的理解:
>>> m = re.match(r"(..)*", "a1b2c3d4") >>> m.group(1) ‘d4‘ >>> m = re.match(r"(..)+", "a1b2c3d") >>> m.group(1) ‘c3‘
表达式的字面义上看只有一对括号,因此(..)+只有1个group(1)的捕获组,每次捕获都存在1号捕获组。
>>> m = re.match(r"(..)(..)+", "a1b2c3d") >>> m.group(1) ‘a1‘ >>> m.group(2) ‘c3‘ >>> m.groups() (‘a1‘, ‘c3‘)
表达式的字面义上看有两对括号,因此(..)(..)+有1个group(1)和1个group(2)的捕获组,第一次捕获放在1号捕获组中,之后每次捕获都存在2号捕获组。
原文:http://hunkz.blog.51cto.com/6157447/1742783