首页 > 其他 > 详细

第三章爬虫

时间:2019-06-26 22:50:33      阅读:143      评论:0      收藏:0      [点我收藏+]

一爬虫原理
1.什么是互联网?
指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。
2.互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的共享,
3.上网的全过程:
一普通用户:
打开浏览器一>往目标站点发送请求一>获取响应数据一> ,渲染到浏览器中
-爬虫程序:
模拟浏览器一->往目标站点发送请求一>获取响应数据一-> 提取有价值的数据一> 持久化到数据中
4.上网的全过程:
 一普通用户:打开浏览器一>往目标站点发送请求一>获取响应数据. - >渲染到浏览器中一爬虫程序:模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中
5.浏览器发送的是什么请求?
http协议的请求。

-客户端:|浏览器是一个软件 -->客户端的IP和端口一服务端
https://www.jd.com/ www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口客户端的ip和端口---- - >服务端的IP和端口发送请求可以建立链接获取相应数据。

6.爬虫的全过程

发送请求

获取响应数据  (只要往服务器发送请求,请求通过后会返回响应数据)-解析并提取数据(需要解析库: re、BeautifulSoup4、Xpath. ..)-保存到本地  (文件处理、数据库、MongoDB存储库)

2. 爬取视频

3.抓包分析

打开浏览器的开发者模式(检查) ----> 选中network找到访问的页面后缀xxx. html (响应文本)

1)请求url (访问的网站地址)2)请求方式:GET:

直接发送请求获取数据

https://ww. cnb logs. com/ kermitjam/art icles/ 9692597.html

POST:需要携带用户信息往目标地址发送请求https://www. cnblogs. com/ Login

3)响应状态码:

2xx:成功3xx:重定向

4xx:找不到资源5xx:服务器错误

4)请求头信息:

User-Agent:用户代理(证明是通过电脑设备及浏览器发送的请求)Cookies:登录用户真实信息(证明你目标网站的用户)

Referer:.上一 次访问的url (证明你是从目 标网站跳转过来的)

5 )请求体:

POST请求才会有请求体。Form Data‘user‘: ‘tank‘ ,‘pwd‘: ‘123 ‘}

 

二、# 爬虫三部曲

 # 1.发送请求

def get_page(base_url): response = requests.get(base_url) return response

# 2.解析文本

def parse_index(text): res = re.findall( ‘<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演:(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>‘, text, re.S) return res

# 3.保存数据

def save_data(data): with open(‘douban.txt‘,‘a‘,encoding=‘utf-8‘)as f: f.write(data) # main + 回车键 if __name__ == ‘__main__‘: # num = 10 # base_url = ‘https://movie.douban.com/top250?start{}&filter=‘.format(num) num = 0 for line in range(10): base_url = f‘https://movie.douban.com/top250?start={num}&filter=‘ num += 25 print(base_url)

爬取豆瓣电影(top250)

.: 从当前位置开始

*: 查找所有

?: 找到第一个不找

.*?: 非贪婪匹配

.*:  贪婪匹配

(.*?): 提取括号内的数据

爬取的数据:

电影排名、电影url、电影名称、导演-主演-类型、电影评分、评价人数、电影简介

’’’

主页面网址

https://movie.douban.com/top250?start=0&filter=

https://movie.douban.com/top250?start=25&filter=

https://movie.douban.com/top250?start=50&filter=

1.发送请求

2.解析数据

3.保存数据

’’’

 

第三章爬虫

原文:https://www.cnblogs.com/liuchen123/p/11094325.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!