本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于腾讯云,作者:CSDN技术头条
随着网络技术的发展,数据越来越变的值钱,诸多公司都在探究如何获取更多更有用的数据。万维网是大量信息的载体,如何有效提取这些有效且公开的数据并利用这些信息变成了一个巨大的挑战。
从而爬虫工程师、数据分析师、大数据工程师的岗位也越来越受欢迎。爬虫则是 Python 的一个应用领域,Python 还有诸多应用领域,如 Web 全栈开发、图形界面开发、大数据、人工智能、系统网络运维、云计算系统管理……
学习好 Python 基础对于学习 Python 爬虫具有事半功倍的效果。就像生活中的学英语一样,一个对英语一概不通的人听完别人读英语,自己也能读出来,但是要把英语读好,好好学习音标是非常有必要的。
然而 Python 的基础知识如果要系统学习,内容也较多,那么我们到底需要学习到什么程度,对于学习 Python 爬虫才是足够的呢?这里,我对学习爬虫需要掌握的 Python 基础知识进行了筛选,过滤掉了一些不必要的知识。为您提供了如下学习链接:
Python 目前流行版本两个 Python 2.x 与 Python 3.x,由于 Python 2 只会维护到2020年,因此这里建议使用 python 3 来作为我们的编程环境。
1.下载Python。
进入下载页面(https://www.python.org/downloads/release/python-362/)下载 Python3.6.2 版本即可。
安装过程中只需要默认安装即可。安装完成后在 cmd 命令行输入 python,然后回车,如果成功进入 python 并返回 python 的版本信息,则证明 Python 环境安装成功(这里我将 Python.exe 改为了 Python3.exe)。如下图所示。
网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更常被称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,从中获取大量的信息。
在开始学习爬虫知识之前,你需要了解一些网页的基本知识:
网站的网址一般由协议+域名+加页面构成,如 https://auction.jd.com/home.html,域名一般是固定的不会改变,能改变的则是页面(home.html),所以在爬虫的过程中我们所需要解析的就是自己编写的不同页面的URL,只有解析出各个不同页面的 URL 入口,我们才能开始爬虫(爬取网页)。
一般来说一个网页的页面主要有 HTML、CSS、JavaScript 构成,这里我们可以打开任意一个网页右击查看网页源代码。
学习爬虫有必要了解网页常见的两种加载模式(后续爬虫过程中,经常需要用到)。
打开浏览器,地址栏输 baidu.com,按下回车,到用户看到内容,主要经历了如下步骤:
(1)开始进行域名解析。
首先浏览器自身搜 DNS 缓存,搜 baidu.com 有没有缓存有没有过期,如果过期就结束,其次浏览器会搜索操作系统自身的 DNS 缓存并读取本地的 host 文件,浏览器发起一个 DNS 系统调用。
(2)浏览器获得 baidu.com 域名对应的 IP 地址后,发起 HTTP 三次握手。
(3)建立 TCP/IP,浏览器就可以向服务器发送 HTTP 请求。
TCP/IP 链接建立起来后,浏览器就可以向服务器发送 HTTP 请求。服务器接收到请求之后就会对请求做相应的处理,并将结果返回给浏览器。
(4)浏览器拿到资源之后对页面进行加载、解析、渲染,最后呈现给用户。
5.谷歌浏览器之 HTTP 请求分析
打开 Chrome 开发工具(这里我们以打开百度网址为例),如下图:
原文:https://www.cnblogs.com/aa1273935919/p/13948379.html