首页 > 其他 > 详细

【飞谷六期】爬虫项目2

时间:2015-10-23 01:28:25      阅读:195      评论:0      收藏:0      [点我收藏+]

大概知道一些思路了,试试内推网的爬取。

 

首先url的格式是:http://www.neitui.me/?name=neitui&handle=lists&keyword={KEY_WORD}&page={CUR_PAGE}

url后面问号跟着的是参数,等于号后面有值的是有效的参数,无值的可以省略;&是连接符号,用于连接参数的。

 

通过XPath提取页面,我今天才知道,原来在谷歌浏览器中用F12显示源码后,可以按Ctrl+F后,通过XPath表达式来查找目标,这样写完XPath表达式后就可以在页面上直接验证了,也容易判断能否化简表达式。

 

首先是获取指定岗位的总页数,通过分析源码知道源码中没有总页数这一条。分析页面

技术分享

页面靠上部分会给出总职位数,每页固定28个职位,这样似乎可以通过(总职位数/28)+1 来得到页数。

但是,试了几个页面之后我发现,当总职位数超过1000时的显示就变成下面的样子了:

技术分享

这样就不能通过除法得到页数了。

 

再观察页码部分

技术分享

技术分享

可以发现,如果没有下一页时,页面上没有向后的图标。分析源码可以通过

 //div[@class="t_pagelink"]//a[@class="next"]

(分析后发现可以化简成//a[@class="next"])

 

来找到向后的图标。

这样就需要每抓取一页后分析是否还有下一页,如果有就继续抓取。

 

【飞谷六期】爬虫项目2

原文:http://www.cnblogs.com/dplearning/p/4903238.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!