Anacanda开发环境

- Anaconda是基于数据分析和机器学习的集成环境给我们集成好了数据分析和机器学习对应的各种环境和模块)。
- jupyter:是Anaconda集成环境提供的基于浏览器可视化的编码工具
- 注意事项
- 在环境搭建的时候只需要安装Anaconda即可,安装路径必须是纯英文的,且不可以出现特殊符号
- 测试安装是否成功:
- 打开终端:jupyter notebook按下回车即可,说明安装成功且环境变量也配置成功
- 在你的所有程序中(点击windows键),找寻有没有一个叫做anaconda的文件夹,点击该文件件如果文件夹下方出现了叫做navigator一个程序也表示安装成功。只不过环境变量没有配置好。
如何启动jupyter
- 方式1:配置好了环境变量,直接在终端中录入jupyter notebook按下回车即可
- 方式2:没有配置环境变量,打开navigator,点击左上角的home选项,点击jupyter notebook图标下的lauch启动

通过点击open terminal打开终端,cd到你想使用的文件夹内(盘符中的)。在该终端中录入jupyter notebook按下回车即可
jupyter的基本使用
- 在终端中录入jupyter notebook指令后,表示我们在本机中启动了一个服务。然后会自动打开你的默认浏览器。
- 注意:你执行jupyter notebook指令的终端,可以进入到指定的目录中执行jupyter notebook指令后,则代开的浏览器显示的页面就是你当前终端对应目录的目录结构。
- 你终端对应的目录结构就是你浏览器打开jupyter页面中的根目录。
new新建:
爬虫概述
- 什么是爬虫?
- 就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程。
- 关键词抽取:
- 模拟:浏览器就是一个纯天然最原始的一个爬虫工具。
- 抓取:
- 抓取一整张的页面源码数据
- 抓取一整张页面中的局部数据
- 爬虫的分类:
- 通用爬虫:
- 聚焦爬虫
- 增量式爬虫:
- 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据。
- 分布式爬虫:
- 反爬机制
- 是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或者措施阻止爬虫程序爬取其数据。
- 反反爬策略
- 是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。
- 第一个反爬机制:
- robots协议:防君子不防小人
- 是一个纯文本的协议,协议中规定了该网站中哪些数据可以被哪些爬虫爬取,哪些不可以被爬取。
- 破解:(不遵从即可)
Anacanda开发环境
原文:https://www.cnblogs.com/zzsy/p/12687154.html