首页 > 其他 > 详细

练习3

时间:2015-08-04 23:14:03      阅读:346      评论:0      收藏:0      [点我收藏+]

简单小爬虫


#!/usr/bin/env python

#coding:utf-8

import urllib2

import bs4

url = ‘http://www.163.com‘

content = urllib2.urlopen(url).read()

content =  content.decode(‘gbk‘)


soup = bs4.BeautifulSoup(content)

links = soup.select(‘li a[href]‘)


result = []

for link in links:

    href = link.attrs[‘href‘]

    title = link.text

    if ‘.html‘ in href and ‘163.com‘ in href and len(title) >3:

        result.append(link)

for link in result:

    print link.attrs[‘href‘], link.text


print ‘共有新闻[%s]条‘,   len(result)


本文出自 “Linux_Config” 博客,请务必保留此出处http://liang1026.blog.51cto.com/10119067/1681675

练习3

原文:http://liang1026.blog.51cto.com/10119067/1681675

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!