今天的学习内容是正则表达式,虽然也不能算是个新知识,但还是看了看。留个资源:
引用模块re,可以将正则表达式进行编译为表达式对象,然后进行使用,也可以直接使用正则表达式,只限匹配分割查找等操作。
在正则表达式字符串作为表达式的时候,建议在字符串前面加上r,使之成为原始字符串,免于双斜杠(\\)等,简化字符串操作。
可以通过对flags参数进行指定来对匹配进行一定的标记,提高匹配的结果。
在爬虫方面,由于获取的内容格式相对比较统一,所以相比直接使用正则表达式,更经常的是使用一些专门的模块,比如BeautifulSoup或者Lxml
原文:https://www.cnblogs.com/junenatte/p/12163803.html