首页 > 编程语言 > 详细

利用正则表达式编写python 爬虫,抓取网页电话号码!

时间:2017-02-20 23:38:57      阅读:1548      评论:0      收藏:0      [点我收藏+]

利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取‘联系我们’里面的电话号码,并输出。

#!/usrweilie/bin/python
#coding=utf-8
import re
import urllib

def gethtml(url):                #获取网页html
    jiuaoopage=urllib.urlopen(url)
    html=jiuaoopage.read()
    return html
def getstr(html):                 #利用正则表达式抓取‘联系我们’链接
    r=r‘<a href="(.*)" >联系我们‘      #正则表达式
    fo=re.compile(r)
    str1=fo.findall(html)
    return str1
def gettel(html):            #利用正则表达式抓取电话号码
    r=r‘\d{3}\-\d{8}‘
    fo=re.compile(r)
    tel=fo.findall(html)
    print tel
html=gethtml(‘http://www.jiuaoo.com/‘)
str1=getstr(html)
str2=‘http://www.jiuaoo.com‘
for i in str1:
    urlstr=str2+i
html=gethtml(urlstr)
gettel(html)


一个抓取电话号码的小爬虫。

本文出自 “全球互联云主机Q874247458” 博客,请务必保留此出处http://gosweet.blog.51cto.com/11759495/1899450

利用正则表达式编写python 爬虫,抓取网页电话号码!

原文:http://gosweet.blog.51cto.com/11759495/1899450

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!