首页 > 其他 > 详细

去哪儿网供应商价格采集演示

时间:2015-09-25 18:50:46      阅读:208      评论:0      收藏:0      [点我收藏+]

 

 

 

原文作者:西安鲲之鹏

原文链接:http://http://www.site-digger.com/html/articles/20150422/89.html

去哪儿网的机票搜索采用了多重反采集策略,其中最麻烦的就是访问频率限制和数据加密。体现在:

1)客户端访问稍微频繁一点就会出现验证码,在展开供应商价格时尤为突出。

2)Ajax返回的价格数据进行加密,而且加密算法经常升级。

3)另外在浏览器中,价格数据还被使用CSS进行了数字混淆。

技术分享

鲲鹏数据的技术人员采用“Webkit + HTTP代理IP轮换 + OCR验证码识别技术”实现,实现了稳定采集去哪儿网机票价格数据的方案。

下面是视频演示:

特别说明:该文章为西安鲲之鹏的原创文章 ,你除了可以发表评论外,还可以转载到你的网站或博客,但是请保留源地址,谢谢!!(尊重他人劳动,你我共同努力)

 

去哪儿网供应商价格采集演示

原文:http://my.oschina.net/webscraping/blog/511284

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!