爬取思想流程

时间：2020-03-27 09:03:41 阅读：61 评论：0 收藏：0 [点我收藏+]

最近两天写爬虫比较多, 总结一下书写爬虫的思路步骤.

获取url.

浏览器打开.

如果无法直接打开, 则判断哪里有验证,根据平台修改User-Agent等请求头.

信息页面路径上是否有所验证. 登录验证, IP验证. 有则一一解决.

登录验证

信息页面是否为动态页面. 检查源代码与前端显示是否一致.

页面信息无法一次加载完成, 需不断下拉才能再次加载.

页面有反selenium策略.

应对反selenium
- 更改browser driver设置. 隐藏selenium调试标识.
- 使用远程调试
- 避免使用browser driver对js进行操作.

爬虫对弈无止境, 如有新得再补.

原文：https://www.cnblogs.com/jrri/p/12578891.html

踩

(0)

评论一句话评论（0）

分享档案

更多>