首页 > 编程语言 > 详细

Python学习(2)

时间:2017-04-06 23:51:25      阅读:301      评论:0      收藏:0      [点我收藏+]


爬取网页的部分链接

#!/usr/bin/python
#coding = utf8
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
pages = set()
def getlink(pageurl):
    global pages
    html = urlopen(‘http://www.ftchinese.com‘ + pageurl)
    bs_data = BeautifulSoup(html,‘lxml‘)
#from ipdb import set_trace
#set_trace()
    for link in bs_data.find_all(‘a‘,href = re.compile("^(/m/)")):
        if ‘href‘ in link.attrs:
            if link.attrs[‘href‘] not in pages:
            #我们遇到了新页面
                newpage = link.attrs[‘href‘]
                print(newpage)
                pages.add(newpage)
                getlink(newpage)
getlink("")



Python学习(2)

原文:http://yanruohan.blog.51cto.com/9740053/1913551

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!