我发觉看视频学习写代码 真的是个很难坚持的事情。一味地怪自己老走神,不如怪这种学习方法的不科学。
笔记 代码 都是老师给写好,全程毫无参与感,怎么可能学的好,所以要自己写笔记。
(一)python爬虫分类和robots协议
1.爬虫的分类
通用爬虫 :
常见的就是搜索引擎。
无差别的收集数据,存储,提取关键字,构建索引库,给用户提供搜索接口。
爬取一般流程:
聚焦爬虫:
2.Robots协议
很多网站都对应一个robots协议,告诉你哪些内容可以爬取,哪些内容不可以。
(二)python爬虫urllib使用和进阶。
1.HTTp请求和响应处理。
爬虫其实就是通过HTTp协议访问网页,模拟人的行为,利用程序去获得数据。
urllib包:
(1)urllib.request用于打开和读写url
(2)urllib.error包含了由urllib.request引起的异常
(3)urllib.parse用于解析url
(4)
urllib.request模块:
urlopen方法:
打开一个url,可以是一个string,也可以是个request对象.
urlopen(url,data,timeout)返回一个response,类文件对象(类文件对象会对应一些方法,可以测试看看是否支持)。
类文件对象 肯定支持上下文管理,会有两个很重要的模式方法,anter,acdent。
data为none的话,发起get请求。如果data不为空的话,发起的是post方法。
原文:https://www.cnblogs.com/maowuyu-xb/p/11202888.html