首页 > Web开发 > 详细

爬虫3:html页面+webdriver模块+demo

时间:2016-05-21 01:14:54      阅读:226      评论:0      收藏:0      [点我收藏+]

  保密性好的网站,不能使用request请求页面信息,这样可以使用webdriver模块先开启一个浏览器,然后爬去信息,甚至还可以click等操作对页面操作,再爬取。

  demo 一般流程:

  1)包含selenium 模块

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

  2)设置采用火狐浏览器(chrome也可以)

driver = webdriver.Firefox()

  3)get方式打开(为了保密,url省略)

driver.get("http://www.---------------")

  4)css方式筛选

elements = driver.find_elements_by_css_selector("span.c9.ng-binding")

  5)由于webdriver模块的筛选功能不是很好用,这里推荐转成html形式,然后使用beautifulsoap筛选

html = driver.page_source

  6)BeautifulSoup筛选信息-find_all  和 css 选择器方式更好用

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html)
# soup.find_all(div,text=re.compile(u"信息"))[0]
for i in soup.select(a[href*="human"]):
    print i

 

爬虫3:html页面+webdriver模块+demo

原文:http://www.cnblogs.com/rongyux/p/5513780.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!