首页 > Web开发 > 详细

用html.parser抓网页中的超链接,返回list

时间:2016-04-03 11:40:42      阅读:238      评论:0      收藏:0      [点我收藏+]
#python3


from
html.parser import HTMLParser class MyHTMLParser(HTMLParser): """ 1、tag是的html标签,attrs是标签的属性 2、抓网页中的超链接,返回list 3、抓网页标题, 4、handle_data:处理数据,就是<xx>data</xx>中间的那些数据 """ def __init__(self): HTMLParser.__init__(self) self.links=[] def handle_starttag(self, tag, attrs): if tag=="a": for key,value in attrs: if key=="href" and "http:" in value: self.links.append(value) data="""html页面的源码""" #初始化类MyHTMLParser parser=MyHTMLParser() #喂养,塞html页面的代码进去,会返回一个class类 parser.feed(data) #操作类方法和属性 print(parser.links)#操作属性

 

用html.parser抓网页中的超链接,返回list

原文:http://www.cnblogs.com/dengyg200891/p/5349460.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!