原文作者:西安鲲之鹏
原文链接:http://http://www.site-digger.com/html/articles/20150422/89.html
去哪儿网的机票搜索采用了多重反采集策略,其中最麻烦的就是访问频率限制和数据加密。体现在:
1)客户端访问稍微频繁一点就会出现验证码,在展开供应商价格时尤为突出。
2)Ajax返回的价格数据进行加密,而且加密算法经常升级。
3)另外在浏览器中,价格数据还被使用CSS进行了数字混淆。
鲲鹏数据的技术人员采用“Webkit + HTTP代理IP轮换 + OCR验证码识别技术”实现,实现了稳定采集去哪儿网机票价格数据的方案。
下面是视频演示:
特别说明:该文章为西安鲲之鹏的原创文章 ,你除了可以发表评论外,还可以转载到你的网站或博客,但是请保留源地址,谢谢!!(尊重他人劳动,你我共同努力)
原文:http://my.oschina.net/webscraping/blog/511284