第三章爬虫

时间：2019-06-26 22:50:33 阅读：144 评论：0 收藏：0 [点我收藏+]

一爬虫原理
1.什么是互联网?
指的是由一堆网络设备，把一台台的计算机互联网到一起称之为互联网。
2.互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的共享,
3.上网的全过程:
一普通用户:
打开浏览器一>往目标站点发送请求一>获取响应数据一> ，渲染到浏览器中
-爬虫程序:
模拟浏览器一->往目标站点发送请求一>获取响应数据一-> 提取有价值的数据一> 持久化到数据中
4.上网的全过程:
一普通用户:打开浏览器一>往目标站点发送请求一>获取响应数据. - >渲染到浏览器中一爬虫程序:模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中
5.浏览器发送的是什么请求?
http协议的请求。

-客户端:|浏览器是一个软件 -->客户端的IP和端口一服务端
https://www.jd.com/ www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口客户端的ip和端口---- - >服务端的IP和端口发送请求可以建立链接获取相应数据。

6.爬虫的全过程

发送请求

获取响应数据 (只要往服务器发送请求，请求通过后会返回响应数据)-解析并提取数据(需要解析库: re、BeautifulSoup4、Xpath. ..)-保存到本地 (文件处理、数据库、MongoDB存储库)

2. 爬取视频

3.抓包分析

打开浏览器的开发者模式(检查) ----> 选中network找到访问的页面后缀xxx. html (响应文本)

1)请求url (访问的网站地址)2)请求方式:GET:

直接发送请求获取数据

https://ww. cnb logs. com/ kermitjam/art icles/ 9692597.html

POST:需要携带用户信息往目标地址发送请求https://www. cnblogs. com/ Login

3)响应状态码:

2xx:成功3xx:重定向

4xx:找不到资源5xx:服务器错误

4)请求头信息:

User-Agent:用户代理(证明是通过电脑设备及浏览器发送的请求)Cookies:登录用户真实信息(证明你目标网站的用户)

Referer:.上一次访问的url (证明你是从目标网站跳转过来的)

5 )请求体:

POST请求才会有请求体。Form Data‘user‘: ‘tank‘ ,‘pwd‘: ‘123 ‘}

二、# 爬虫三部曲

# 1.发送请求

def get_page(base_url): response = requests.get(base_url) return response

# 2.解析文本

def parse_index(text): res = re.findall( ‘<div class="item">.*?(.*?).*?<a href="(.*?)">.*?(.*?).*?导演:(.*?).*?(.*?).*?(.*?)人评价.*?(.*?)‘, text, re.S) return res

# 3.保存数据

def save_data(data): with open(‘douban.txt‘,‘a‘,encoding=‘utf-8‘)as f: f.write(data) # main + 回车键 if __name__ == ‘__main__‘: # num = 10 # base_url = ‘https://movie.douban.com/top250?start{}&filter=‘.format(num) num = 0 for line in range(10): base_url = f‘https://movie.douban.com/top250?start={num}&filter=‘ num += 25 print(base_url)

三爬取豆瓣电影（top250)

.: 从当前位置开始

*: 查找所有

?: 找到第一个不找

.*?: 非贪婪匹配

.*: 贪婪匹配

(.*?): 提取括号内的数据

爬取的数据：

电影排名、电影url、电影名称、导演-主演-类型、电影评分、评价人数、电影简介

’’’

主页面网址

https://movie.douban.com/top250?start=0&filter=