1、初识爬虫
爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网爬取数据的过程。
爬虫的分类:
- 通用爬虫;即将一整张页面进行数据爬取,搜索引擎抓取系统
- 聚焦爬虫;即将网页中局部内容进行爬取,与通用爬虫有关系,要先进行通用爬虫
- 增量式;只爬取最新更新的数据,或者说只爬取没有爬取过的数据
反爬机制:对应的应用载体是门户网站。
反反爬策略:对应的应用载体是爬虫程序。
robots.txt协议:我们遇到的第一个反爬机制(https://www.taobao.com/robot.txt),遵从或者不遵从,一个防君子,不妨小人的协议。
2、回顾http/https
3、对称密钥加密 和 非对称密钥加密
4、
原文:https://www.cnblogs.com/li-li/p/10435898.html