首页 > 其他 > 详细

爬虫必备正则re模块

时间:2021-06-07 20:34:27      阅读:18      评论:0      收藏:0      [点我收藏+]

re模块

*正则表达式
1、 . 匹配除换行符以外的任意字符
2、 \w 匹配 数字 字母下划线 \W 匹配非数字、字母、下划线

3、 \s 匹配任意的空白符 \S 匹配非空白符

4、 \d 匹配数字 \D 匹配非数字
5、 \n 匹配一个换行符

6、 \t 匹配一个制表符

7、 ^ 匹配字符串的开始
8、 $ 匹配字符串的结尾
9、 a|b 匹配字符a或者字符b
10、 () 匹配括号内的表达式,也表示一个组
11、 [...] 匹配字符组中的字符
12、 [ ^. . .] 匹配除了字符组中的所有字符

 

量词:控制前面的元字符出现的次数

1、 * 0次或者更多次

2、 + 重复一次或者更多次

3、 ? 重复0次或者一次

4 、 {n} 重复n次

5、 {n,} 重复n次或者更多次

6、 {n,m} 重复n次到m次

 

* 贪婪匹配和惰性匹配

1、 .* 尽可能多的匹配

2、 .*? 尽可能少的匹配字符

(这两个是写爬虫非常需要用到的)

 

爬虫必备正则re模块

原文:https://www.cnblogs.com/yuguog/p/14859606.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!