首页 > 其他 > 详细

爬虫基本原理,post、get请求

时间:2019-11-25 22:06:40      阅读:89      评论:0      收藏:0      [点我收藏+]

一、爬虫介绍:

  -本质,

    -就是想网站发送http请求,拿回一些页面/json格式数据(request)

    -处理数据,解析出有用的东西(re,bs4)

    -存储(mysql,文件,cvs,redis,MongoDB,es)

    -分析

  -cookie池和代理池

    -爬视频

    -正向代理和反向代理

      (正向代理-代理自己,反向代理-代理服务器)

爬虫运用模块

  -requests模块

    -爬视频

  -beautiflsoup

    -requests+bs4爬新闻

  -selenium

    -购物网站

  -request-html

    -模拟登陆知乎(破解加密登陆)

  -破解验证码

  -mogodb

  -高性能相关

  -scrapy框架(爬虫界的django)

  -分布式爬虫  scrapy-redis

 

1、requests模块

  -基于get和post请求

技术分享图片
import requests

# get 请求
res = requests.get(https://www.baidu.com/s,
                   # get请求携带参数
                   params={wd: 美女},
                   # 请求头的信息
                   headers={
                       User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36}
                   )

res.encoding = utf-8
print(res.text)
with open(a.html,w) as f:
    f.write(res.text)
get
技术分享图片
import requests

# post 请求
headers = {
    User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36
}
res = requests.post(http://www.aa7a.cn/user.php,
                    headers=headers,
                    data={
                        username: 616564099@qq.com,
                        password: lqz123,
                        captcha: pnz4,
                        remember: 1,
                        ref: http://www.aa7a.cn/,
                        act: act_login
                    })

# 如果登陆成功,cookie会存在于res对象中
cookie = res.cookies.get_dict()

res = requests.get(http://www.aa7a.cn/,headers=headers,
                 cookies=cookie,)

if 616564099@qq.com in res.text:
    print("登录成功")
else:
    print("没有登录")
post

 

 

爬虫基本原理,post、get请求

原文:https://www.cnblogs.com/xiaowangba9494/p/11930420.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!