首页 > 其他 > 详细

爬虫网址

时间:2016-05-15 23:55:55      阅读:318      评论:0      收藏:0      [点我收藏+]
  1. #获取<a href></a>中的URL  
  2. print u‘\n获取链接中URL:‘  
  3. res_url = r"(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\‘)"  
  4. link = re.findall(res_url ,  content, re.I|re.S|re.M)
  5. for url in link:  
  6.  print url  

 

(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\")"

(?<=href=\").+?(?=\")

前边是href="有一个或多个.

最后一个字符是“    前边的\是转意

 绿色部分很重要,是正则的贪婪表示,取最小部分匹配。

http://blog.csdn.net/eastmount/article/details/51082253。。。。。。。。。。。受益匪浅

爬虫网址

原文:http://www.cnblogs.com/8335IT/p/5496516.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!