首页 > 编程语言 > 详细

Python 网页爬虫

时间:2015-09-29 09:54:51      阅读:171      评论:0      收藏:0      [点我收藏+]

解决问题:获取网页上的内容。特别是加载主框架后,再用AJAX获取数据生成内容的网页。

PyQuery:可以像jQuery的py实现。你给他一个PyQuery一个HTML,他给你一个类似jQuery的操作.只能获取普通网页。AJAX的网页就无能为力。

Ghost.py:一个封装Webkit(浏览器核心)的类库。就是模拟浏览器访问网页。

安装类库

pip install PyQuery

pip install PySide

pip install Ghost.py

from ghost import Ghost
from pyquery import PyQuery as pq

 

g=Ghost()
session=g.start()
session.open(http://www.163.com ,wait=None)
session.wait_for_page_loaded()
doc=pq(session.content)

这样 doc 就可以当作$用了

Python 网页爬虫

原文:http://www.cnblogs.com/bflyman/p/4845459.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!