首页 > 其他 > 详细

爬虫(1)

时间:2019-02-26 11:56:41      阅读:177      评论:0      收藏:0      [点我收藏+]

技术分享图片

技术分享图片

1、初识爬虫

  爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网爬取数据的过程。

  爬虫的分类:

    - 通用爬虫;即将一整张页面进行数据爬取,搜索引擎抓取系统

    - 聚焦爬虫;即将网页中局部内容进行爬取,与通用爬虫有关系,要先进行通用爬虫

    - 增量式;只爬取最新更新的数据,或者说只爬取没有爬取过的数据

  反爬机制:对应的应用载体是门户网站。

  反反爬策略:对应的应用载体是爬虫程序。

  robots.txt协议:我们遇到的第一个反爬机制(https://www.taobao.com/robot.txt),遵从或者不遵从,一个防君子,不妨小人的协议。

 2、回顾http/https

 

3、对称密钥加密 和 非对称密钥加密

技术分享图片

4、

 

 

  

爬虫(1)

原文:https://www.cnblogs.com/li-li/p/10435898.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!