练习3

时间：2015-08-04 23:14:03 阅读：348 评论：0 收藏：0 [点我收藏+]

简单小爬虫

#!/usr/bin/env python

#coding:utf-8

import urllib2

import bs4

url = ‘http://www.163.com‘

content = urllib2.urlopen(url).read()

content = content.decode(‘gbk‘)

soup = bs4.BeautifulSoup(content)

links = soup.select(‘li a[href]‘)

result = []

for link in links:

href = link.attrs[‘href‘]

title = link.text

if ‘.html‘ in href and ‘163.com‘ in href and len(title) >3:

result.append(link)

for link in result:

print link.attrs[‘href‘], link.text

print ‘共有新闻[%s]条‘, len(result)

原文：http://liang1026.blog.51cto.com/10119067/1681675

踩

(0)

评论一句话评论（0）

分享档案

更多>