1.分析Http请求
- 请求方式:get、post等等
- URL:每个请求的url,固定部分和变换部分,一般动态的部分可能是在这个请求的前面的请求中有相关请求
- Form Data 是data传值他默认的请求头是 application/x-www-form-urlencoded 一般用于form表单,后台request.POST.get(“name”)拿值
- Request Payload 是json传值把整个大字典当成一个字符串传到后台,具体怎么传之前博客有写
- 请求头: 这个是重点
user-agent:当前用户的浏览器版本之类的信息,有的网站爬不了可能是因为这个,如知乎,知乎就是检测他
Referer:而微信是搞了Referer的设置,这个东西是证明你是在我的网站上对我进行访问的我才同意你
Content-Type : 能接收什么类型的请求头
host : 把自己的域名写上就好了(ip可以试试)
cookie : 这是关键
2.代理:ip被封了就需要进行代理设置
原文:http://www.cnblogs.com/wuyongqiang/p/7455747.html