首页 > 其他 > 详细

爬虫学习笔记(四)正则表达式

时间:2018-07-03 22:58:23      阅读:229      评论:0      收藏:0      [点我收藏+]

上一篇博客写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹配咱们想要的数据。

  字符串是我们在编程的时候很常用的一种数据类型,检查会在字符串里面查找一些内容,对于比较简单的查找,字符串里面就有一些内置的方法可以处理,对于比较复杂的字符串查找,或者是有一些内容经常变化的字符串里面查找,那么字符串内置的查找方法已经不好使了,满足不了我们的要求,这个时候就得用正则表达式了,正则表达式就是用来匹配一些比较复杂的字符串。

 

     在python中,如果使用正则表达式的话,需要导入re模块,re模块是一个内置模块,直接import就可以使用。

     匹配字符串的几个方法

 1 import re
 2 s=besttest is good
 3 print(re.match(best,s)) 
 4 #match方法接收3个参数,第一个是匹配的规则,也就是正则表达式,第二个是要查找的字符串,
 5 #第三个参数不是必填的,用于控制正则表达式的匹配方式,看下面正则表达式的匹配模式。是从字符串的第一个单词中匹配字符串,如果匹配到返回一个对象,如果匹配不到,则返回None
 6 #>>><_sre.SRE_Match object; span=(0, 4), match=‘best‘>
 7 print(re.search(best,s))
 8 #search方法的参数和match一样,和match方法不一样的是,match是从字符串里面的第一个单词里面找,而search方法则是从字符串的整个内容里面找,如果找到了就返回第一个,找不到就返回None
 9 #>>> <_sre.SRE_Match object; span=(0, 4), match=‘best‘>
10 print(re.findall(best,s))
11 #findall方法的参数上面的match、search一样,和他们不一样的是,findall会返回所有一个list,把所有匹配到的字符串,放到这个list里面,如果找不到的话,就返回一个空的list
12 #>>> [‘best‘]
13  
14 print(re.sub(best,Best,s))
15 #sub方法和字符串的replace方法一样,是用来替换字符串的,把匹配到的值替换成一个新的字符串,接收3个参数,第一个是正则表达式,第二个是要替换成什么,第三个就是要查找的字符串,会返回一个新的字符串,如果匹配不到的话,返回原来的字符串
16 #>>> Besttest is good
17 print(re.split(best,s))
18 #split 方法和字符串的split方法一样,是用来分割字符的,按照匹配到的字符串进行分割,返回的是一个list,如果匹配不到的话,那返回的list中还是原来的字符串
19 #>>> [‘‘, ‘test is good‘]

常用正则表达式符号

1、数量词

 1 *     匹配*号前的字符0次或多次,只是*前面的一个字符
 2 print(re.findall(rbe*,besttest very best))
 3 >>> [be]
 4 +     匹配前一个字符1次或多次,只是+前面的一个字符
 5 print(re.findall(rst+,besttest is best))
 6 >>> [stt, st, st]
 7 ?     匹配前一个字符1次或0次,只是?前面的一个字符
 8 print(re.findall(rst?,besttest is best))
 9 {m}   匹配前一个字符m次
10 print(re.findall(rt{2},besttest is best))
11 >>> [tt]
12 {n,m} 匹配前一个字符n到m次
13 print(re.findall(rt{1,2},besttest is best))
14 >>> [tt, t, t]

2、一般字符串

 1 .     默认匹配除\n之外的任意一个字符
 2 print(re.findall(rb.,besttest is good))
 3 [....],字符集合,
 4 >>> [be]
 5 >>> [st, st, s, st]
 6 \‘   转译符,前面的* + ?这样的字符都有特殊含义了,如果你想就想找它的话,那就得转译了
 7 意思就是说如果你想让特殊字符失去以前的含义,那么就得给它前面加上 8 print(re.findall(r\?,besttest is best????))
 9 >>> [?, ?, ?, ?]
10 |     匹配|左或|右的字符
11 print(re.findall(rbest|is,besttest is best))
12 >>> [best, is, best]
13 [] 字符集合,某些字符的集合,匹配的时候是这个集合里面的任意一个就行
14 print(re.findall(rbe[stacj],besttest is best bejson))
15 >>>[bes, bes, bej]
16 在[]里面如果用^的话代表取反,也就是不包括的这些字符串的
17 print(re.findall(rbe[^stac],besttest is best bejson)) 

3、边界匹配

 1 ^     匹配以什么字符开头,多行情况下匹配每一行的开头
 2 print(re.findall(r^b,besttest is good))
 3 >>> [b]
 4 print(re.findall(r^b,besttest is good\nbest,re.M))#多行模式
 5 >>> [b,b]
 6 $     匹配以什么字符结尾,多行情况下匹配每一行的结尾
 7 print(re.findall(rd$,besttest is good))
 8 >>> [d]
 9 print(re.findall(rd$,besttest is good\nbest is good,re.M<span style="line-height:1.5;">))#多行模式</span> >>>[‘d‘,‘d‘]
10 \A 仅以什么字符开头,和^不同的是它不能用多行模式
11 print(re.findall(r\Ab,besttest is good))
12 >>> [b]
13 \Z 仅以什么字符结尾,和$不同的是它不能用多行模式
14 print(re.findall(rd\Z,besttest is good))
15 >>> [d]

4、预定义字符集合

 1 \d  匹配数字0-9
 2 print(re.findall(r\d+,sdf2342312sdfs))
 3 >>> [2342312]
 4 \D    匹配非数字
 5 print(re.findall(r\D,sdf2342312sdfs))
 6 >>>[sdf, sdfs]
 7 \w    匹配[A-Za-z0-9],也就是所有的字母和数字
 8 print(re.findall(r\w,sdf234%^2312sdfs&))
 9 >>>[sdf234, 2312sdfs]
10 \W 匹配不是[A-Za-z0-9],也就是不是字母和数字
11 print(re.findall(r\W,sdf234%^2312sdfs&))
12 >>>[%, ^, &]
13 \s 匹配空白字符、\t、\n、\r,空格
14 print(re.findall(\s,axss\n\tsdf\t\r\t))
15 >>> [\n, \t, \t, \r, \t]
16 \S匹配空白字符,不是\t、\n、\r,空格
17 print(re.findall(\s,axss\n\tsdf\t\r\t))
18 >>>[\n, \t, \t, \r, \t]

5、分组匹配

 1 (...) 分组匹配,把某些规则写成在一个组里,这样就可以直接对这个进行一些匹配了,举个例子的话,如果要匹配ip地址的话
 2 ip地址是类似这样的192.168.5.1,每一位都是1位或者3位的数字然后后面有个点正常写的话,得这么写
 3 print(re.findall(r\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3},"192.168.1.3"))
 4 >>> [192.168.1.3]
 5 这样写的话,有点麻烦了,通过上面的我们可以发现规律,除了第一个后面的全都是.\d{1,3},写重复的代码就是低级的,这样的话就可以用分组了
 6 就把.\d{1,3}当做一个整体,然后让他们出现3次就ok了,可以改成下面这样的
 7 print(re.search(r\d{1,3}(.\d{1,3}){3},"192.168.1.3").group())这个是用search方法的,结果和上面的一样的
 8 >>> 192.168.1.3
 9 print(re.findall(r\d{1,3}(.\d{1,3}){3},"192.168.1.3"))咱们继续用findall方法,发现结果是下面的
10 >>> [.3]
11 为啥会这样呢,用match方法和search方法都是正常的,findall方法这里有个坑,就是如果findall方法里面有分组的话,那结果就只是分组里面的内容
12 ,如果想让结果正确的话就在分组最前面写上?:,一个问号和一个冒号就好了,启用“不捕捉模式”
13 print(re.findall(r\d{1,3}(?:.\d{1,3}){3},"192.168.1.3"))
14 这么写结果就对了

正则表达式匹配模式

   正则匹配模式是用在match、search、findall里面的第三个参数,还有其他的模式,但是一般也用不到,就这两种能用到,别的就不记了

 

1 re.I: #忽略大小写
2 re.M: #多行模式,改变‘^‘和‘$‘的行为
3 re.findall(pattern, string,re.I)

 

 

 

爬虫学习笔记(四)正则表达式

原文:https://www.cnblogs.com/shihun/p/9260841.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!