最近在采集某网站的时候发现是通过post请求来请求数据的,使用的数据格式是request payload,这个和之前看到过的常见的POST请求不同(Form data),这个时候在使用Form data的请求方式来提交时,就无法请求到真实数据了。
Http请求中Form data和request payload的区别:其实这两种都是ajax中常见的两种传参数的形式
get请求的时候我们通常直接在url中以key=value的形式
post请求,表单参数都是在请求体中的,也就是将key=value从url中剥离了出来
要是使用的是原声的ajax post请求的话,那么在chrome中的开发者模式下会看到单独的request payload中的参互展示出来
在请求的content-Type中是application/json;charset=UTF=8,而在请求表单的参数在request payload中
如果一个请求的content-Type被设置成application/x-www-form-urlencoded,那么这个Post请求会被认为是Http Post请求,那么请求的主体将会以一个标准的键值对和&的querystring形式出现,这种方式是HTML表单的默认设置,所以在过去这种方式更加常见
其他形式的POST请求,是放到request payload中(现在为了方便阅读,使用了json进行序列化),所以请求的content-Type设置成了application/json;charset=UTF-8或者是不指定
python中使用requests模块来请求post payload模块
payloadData = { ‘initPage‘: ‘false‘, ‘pageNum‘: ‘1‘, ‘pageSize‘: ‘20‘, ‘supplierCateId‘: "-1", ‘queryType‘: "pro" } payloadData[‘pageNum‘] = str(jb) # 请求头设置 payloadHeader = { ‘Host‘: ‘a300010770.casmart.com.cn‘, ‘Content-Type‘: ‘application/json‘, } r = requests.post(postUrl, data=json.dumps(payloadData), headers=payloadHeader).text
原文:https://www.cnblogs.com/tulintao/p/12178170.html