首页 > 其他 > 详细

一 . 爬虫

时间:2019-10-31 14:53:08      阅读:72      评论:0      收藏:0      [点我收藏+]

一. 爬虫介绍   爬虫的流程   浏览器行为   Http协议    常见的反爬手段

1. 爬虫介绍

 爬虫是一个模仿浏览器行为,向服务器发送请求并且获得数据的应用程序。而互联网好比一张大网,数据是网上的猎物,爬虫就是蜘蛛

2. 爬虫流程

发起请求 --> 获取数据 --> 解析数据 --> 存储数据

3. 浏览器行为

抓包工具:fiddler、mitmproxy

Elements:浏览器渲染后的代码,爬虫爬取的是原始数据

Console:js控制台,可以执行js代码,在js注入之前进行调试。如document.charset可以查看编码格式

Sources:网页的资源

Network:网页的抓包工具

 4. Http协议中需要关注的

1.请求
Request URL:请求地址
Request Method:请求方式
get
post
请求体:formdata、json、files三种格式
Request Headers:请求头
Cookie:保存信息(主要记录用户登录状态)
User-Agent:用户身份
Referer:告诉服务器你从哪里来。防止盗链行为
服务器特有字段
2.响应 Status Code:状态码 2xx:请求成功,但是不能用这个作为请求成功的唯一标识 3xx:重定向 4xx:客户端错误 5xx:服务器错误 响应头 location:重定向的url set-cookie:设置cookie 服务器特定字段 响应体 html代码 二进制:图片,视频,音频 json格式 jsonp格式:可以跨域

 5. 常见的反爬手段

1.检测浏览器headers

2.ip封禁

3.图片验证码

4.滑动模块

5.js轨迹

6.前端反调试

7.js加密算法

 

一 . 爬虫

原文:https://www.cnblogs.com/lovershowtime/p/11771105.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!