re模块
*正则表达式
1、 . 匹配除换行符以外的任意字符
2、 \w 匹配 数字 字母下划线 \W 匹配非数字、字母、下划线
3、 \s 匹配任意的空白符 \S 匹配非空白符
4、 \d 匹配数字 \D 匹配非数字
5、 \n 匹配一个换行符
6、 \t 匹配一个制表符
7、 ^ 匹配字符串的开始
8、 $ 匹配字符串的结尾
9、 a|b 匹配字符a或者字符b
10、 () 匹配括号内的表达式,也表示一个组
11、 [...] 匹配字符组中的字符
12、 [ ^. . .] 匹配除了字符组中的所有字符
量词:控制前面的元字符出现的次数
1、 * 0次或者更多次
2、 + 重复一次或者更多次
3、 ? 重复0次或者一次
4 、 {n} 重复n次
5、 {n,} 重复n次或者更多次
6、 {n,m} 重复n次到m次
* 贪婪匹配和惰性匹配
1、 .* 尽可能多的匹配
2、 .*? 尽可能少的匹配字符
(这两个是写爬虫非常需要用到的)
爬虫必备正则re模块
原文:https://www.cnblogs.com/yuguog/p/14859606.html